专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
高分子科技  ·  封伟教授团队 Adv. ... ·  15 小时前  
高分子科学前沿  ·  中国科学院理化技术研究所王树涛/孟靖昕团队《 ... ·  18 小时前  
高分子科学前沿  ·  中国青年学者一作兼通讯!3D打印,最新Sci ... ·  2 天前  
高分子科技  ·  中科院纳米能源所张弛研究员团队 ACS ... ·  4 天前  
高分子科技  ·  华南师范大学胡小文 ... ·  3 天前  
51好读  ›  专栏  ›  学术头条

3B 超越 7B,Mistral AI 推出端侧模型 Ministral 3B 和 8B

学术头条  · 公众号  ·  · 2024-10-17 12:02

正文



今日凌晨,Mistral AI 推出了他们最新一代端侧模型 les Ministraux:Ministral 3B 和 Ministral 8B,这是两款用于端侧计算和边缘用例的 SOTA 模型。


据介绍, les Ministraux 在知识、常识、推理、函数调用和效率方面达到了 10B 以下同类模型的新高度 ,可直接用于或微调为各种用途,从协调智能体工作流到创建专业任务工作者。


两种模型都支持高达 128k 的上下文长度(vLLM 目前为 32k),Ministral 8B 具有一种特殊的交错滑动窗口注意力机制(SWA),可加快推理速度并提高内存效率。



使用案例


目前,为端侧翻译、无互联网智能助手、本地分析和自主机器人等关键应用提供本地、隐私优先推理的需求越发强烈。


Mistral AI 方面表示,Les Ministraux 就是为这些应用场景提供计算效率高、延迟低的解决方案而设计的。从独立业余爱好者到全球制造团队,Les Ministraux 可满足各种使用情况。与 Mistral Large 等大语言模型(LLM)结合使用时,Les Ministraux 还是多步骤智能体工作流中函数调用的高效中介。 可以对它们进行微调,以处理输入解析、任务路由和根据用户意图在多种上下文中以极低的延迟和成本调用 API。



Benchmark


Mistral AI 在多个任务中展示了 les Ministraux 的性能,其表现始终优于同类产品。他们利用内部框架重新评估了所有模型,以便进行公平比较。


1.预训练模型


图|Ministral 3B 和 8B 模型与 Gemma 2 2B、Llama 3.2 3B、Llama 3.1 8B 和 Mistral 7B 在多个类别上的比较


图 | Ministral 3B 和 8B base 模型与 Gemma 2 2B、Llama 3.2 3B、Llama 3.1 8B 和 Mistral 7B 的比较


2.Instruct 模型


图|Ministral 3B 和 8B  Instruct 模型与 Gemma 2 2B、Llama 3.2 3B、Llama 3.1 8B、Gemma 2 9B 和 Mistral 7B 在不同评估类别上进行了比较








请到「今天看啥」查看全文