专栏名称: AI小岛

AI小岛，高效不烦恼！这里是AI的宝藏岛，通过AI魔法让学习和工作事半功倍，开启新生活的无限可能。

凌晨开源震撼来袭：Mistral Large 2，AI领域的全新巨兽！基准测试媲美Llama 3.1 405B！

AI小岛 · 公众号 · · 2024-07-25 12:05

正文

在AI领域，时间就是最宝贵的资源，每一秒都有可能带来新的突破和创新。

就在昨天凌晨，法国初创公司Mistral AI重磅发布他们的最新旗舰AI模型——Mistral Large 2。

这款开源旗舰 AI 模型不仅在多项指标上表现卓越，还在代码生成和数学推理方面展现出无与伦比的能力，迅速引起AI圈的巨大反响。

Mistral Large 2：AI领域的全新巨兽

Mistral Large 2，这款拥有1230亿参数的新一代旗舰开源模型，不仅具有128K的上下文窗口，还支持包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语在内的数十种语言，以及80多种编程语言，如Python、Java、C、C++、JavaScript和Bash。

这款模型专为单节点推理设计，能够在单个节点上以大吞吐量运行，满足长上下文应用程序的需求。

虽然相比Llama 3.1 405B的4050亿参数要小得多，但在许多基准测试中的表现却相当惊艳。

一天之内，两大开源AI模型的对决

我们来看看Mistral Large 2与Llama 3.1 405B的直接对比：

代码生成能力

对于开发者来说，代码生成能力至关重要。

Mistral Large 2在HumanEval基准测试中得分为92%，高于Llama 3.1 405B Instruct的89%。

MultiPL-E 上的性能准确性

代码生成基准的性能准确性

这意味着，Mistral Large 2能够生成更准确和高效的代码，极大提升开发效率。

数学推理

在数学推理方面，Mistral Large 2在GSM8K基准测试中得分为93%，表现优于大多数开源模型，仅次于Llama 3.1 405B的96.8%。

GSM8K（8 次）和 MATH（0 次，无 CoT）生成基准的性能准确性

这对于需要处理复杂数学运算的应用场景，如科学计算和金融分析，具有重要意义。

多任务语言理解

Mistral Large 2在多语言数据上进行了大量训练，特别是在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语等方面表现出色。

在多语言MMLU基准测试上，Mistral Large 2的性能结果与Llama 3.1 405B基本持平，仅低0.4%。

多语言 MMLU 上的性能

从以上数据可以看出，Mistral Large 2在代码生成等关键领域的表现尤为突出，甚至超越Llama 3.1 405B。

这意味着，短短两天内，开源AI模型的水平已经接近甚至赶超GPT-4。

实际用例

9.11 和 9.9 哪个大？

咦，感觉还不够聪明，哈哈哈，你不会就这样错过吧？

来看看下面这个案例，用Mistral Large 2构建一个可以通过RAG与PDF聊天的LLM应用，整个过程不到5分钟。

从一个简单的英文提示词开始，快速搭建出一个功能齐全的AI应用。

是不是很神奇？快来亲自体验一下吧！

体验入口：

https://chat.mistral.ai/chat

当然，你也可以直接获取模型， Mistral Large 2目前可以在HuggingFace上获取，但仅限于研究用途。

如果你是研究人员或开发者，可以通过以下链接访问模型：

https://huggingface.co/mistralai/Mistral-Large-Ins truct-2407

感谢关注 AI 小岛，我们将继续为你带来更多关于科技前沿的最新动态和实用技巧。

- End -

往期推荐

重磅发布！Llama 3.1 405B，迄今为止最大最强的开源模型！

AI让开发效率提升10倍？Claude Sonnet 3.5实战经验分享！

打破视角局限！这个超级提示让你从不同角度看世界！

为什么选择GPT-4o和GPT-4o Mini，而不是等待GPT-5？

OpenAI正式发布 GPT-4o mini ！这是目前最智能且最实惠的小型模型！

让内容情感爆棚！推荐这个神奇的超级提示！

曝光！听说这就是Claude 3.5 Sonnet编写Claude Artifacts的核心System Prompt！

10个超酷的Claude Artifacts案例，你试过几个？

OpenAI再掀风波！神秘Q*模型进化成“草莓”！

凌晨开源震撼来袭：Mistral Large 2，AI领域的全新巨兽！基准测试媲美Llama 3.1 405B！

正文

请到「今天看啥」查看全文