Mistral AI发布开源MoE大模型8x7B 支持32K上下文窗口性能超越Llama2 70B-泡玩网

近日，Mistral AI团队推出了名为「8x7B」的新型开源语言模型。该架构采用混合专家技术路线，整体参数量达560亿，支持32K上下文长度，在多项基准测试中表现优于Llama2 70B模型，部分场景达到GPT-3.5水准。

作为首个开源的混合专家大模型，8x7B通过任务分解机制提升运算效率。其工作原理是将复杂任务拆分为若干子任务，由不同专业模块分别处理最终汇总结果。该设计思路与GPT-4架构相似但规模更为紧凑，为后续发展预留了提升空间。

该模型官方支持英语、法语、德语、西班牙语和意大利语五种语言。实际测试显示，虽然未专门针对中文进行训练，但模型仍能对中文输入做出合理回应，展现出较强的泛化能力。

在涵盖推理、代码生成等领域的七项基准测试中，8x7B全面超越Llama2 70B模型。其综合性能已接近GPT-3.5水平，显示出开源模型与商业模型竞争的可能性。

Mistral AI被誉为欧洲地区的OpenAI，其技术路线选择与模型架构设计都体现出独特见解。采用分布式发布方式也展现了团队在模型传播方面的创新思维，为开源社区提供了新的发展范式。

https://mistral.ai/news/mixtral-of-experts/
https://huggingface.co/chat
https://x.com/MistralAI/status/1733150512395038967?s=20

Mistral AI发布开源MoE大模型8x7B 支持32K上下文窗口性能超越Llama2 70B