在AI领域,时间就是最宝贵的资源,每一秒都有可能带来新的突破和创新。
就在昨天凌晨,法国初创公司Mistral AI重磅发布他们的最新旗舰AI模型——Mistral Large 2。
这款开源旗舰 AI 模型不仅在多项指标上表现卓越,还在代码生成和数学推理方面展现出无与伦比的能力,迅速引起AI圈的巨大反响。
Mistral Large 2:AI领域的全新巨兽
Mistral Large 2,这款拥有1230亿参数的新一代旗舰开源模型,不仅具有128K的上下文窗口,还支持包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、
中文
、日语和韩语在内的数十种语言,以及80多种编程语言,如Python、Java、C、C++、JavaScript和Bash。
这款模型专为单节点推理设计,能够在单个节点上以大吞吐量运行,满足长上下文应用程序的需求。
虽然相比Llama 3.1 405B的4050亿参数要小得多,但在许多基准测试中的表现却相当惊艳。
我们来看看Mistral Large 2与Llama 3.1 405B的直接对比:
代码生成能力
对于开发者来说,代码生成能力至关重要。
Mistral Large 2在HumanEval基准测试中得分为92%,高于Llama 3.1 405B Instruct的89%。
MultiPL-E 上的性能准确性
代码生成基准的性能准确性
这意味着,Mistral Large 2能够生成更准确和高效的代码,极大提升开发效率。
数学推理
在数学推理方面,Mistral Large 2在GSM8K基准测试中得分为93%,表现优于大多数开源模型,仅次于Llama 3.1 405B的96.8%。
GSM8K(8 次)和 MATH(0 次,无 CoT)生成基准的性能准确性
这对于需要处理复杂数学运算的应用场景,如科学计算和金融分析,具有重要意义。
多任务语言理解
Mistral Large 2在多语言数据上进行了大量训练,特别是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语等方面表现出色。
在多语言MMLU基准测试上,Mistral Large 2的性能结果与Llama 3.1 405B基本持平,仅低0.4%。
多语言 MMLU 上的性能
从以上数据可以看出,Mistral Large 2在代码生成等关键领域的表现尤为突出,甚至超越Llama 3.1 405B。
这意味着,短短两天内,开源AI模型的水平已经接近甚至赶超GPT-4。
9.11 和 9.9 哪个大?
咦,感觉还不够聪明,哈哈哈,你不会就这样错过吧?
来看看下面这个案例,用Mistral Large 2构建一个可以通过RAG与PDF聊天的LLM应用,整个过程不到5分钟。
从一个简单的英文提示词开始,快速搭建出一个功能齐全的AI应用。
是不是很神奇?快来亲自体验一下吧!
体验入口:
https://chat.mistral.ai/chat
当然,
你也可以
直接获取模型
,
Mistral Large 2目前可以在HuggingFace上获
取,但仅限于研究用途。
如果你是研究人员或开发者,可以通过以下链接访问模型:
https://huggingface.co/mistralai/Mistral-Large-Ins
truct-2407
感谢关注 AI 小岛,我们将继续为你带来更多关于科技前沿的最新动态和实用技巧。
- End -