Mistral AI发布开源MoE大模型8x7B 支持32K上下文窗口 性能超越Llama2 70B

简介

近日,Mistral AI团队推出了名为「8x7B」的新型开源语言模型。该架构采用混合专家技术路线,整体参数量达560亿,支持32K上下文长度,在多项基准测试中表现优于Llama2 70B模型,部分场景达到GPT-3.5水准。

技术特色

作为首个开源的混合专家大模型,8x7B通过任务分解机制提升运算效率。其工作原理是将复杂任务拆分为若干子任务,由不同专业模块分别处理最终汇总结果。该设计思路与GPT-4架构相似但规模更为紧凑,为后续发展预留了提升空间。

多语言支持

该模型官方支持英语、法语、德语、西班牙语和意大利语五种语言。实际测试显示,虽然未专门针对中文进行训练,但模型仍能对中文输入做出合理回应,展现出较强的泛化能力。

性能表现

在涵盖推理、代码生成等领域的七项基准测试中,8x7B全面超越Llama2 70B模型。其综合性能已接近GPT-3.5水平,显示出开源模型与商业模型竞争的可能性。

发展前景

Mistral AI被誉为欧洲地区的OpenAI,其技术路线选择与模型架构设计都体现出独特见解。采用分布式发布方式也展现了团队在模型传播方面的创新思维,为开源社区提供了新的发展范式。

分享地址:

https://mistral.ai/news/mixtral-of-experts/
https://huggingface.co/chat
https://x.com/MistralAI/status/1733150512395038967?s=20

评论 抢沙发