专栏名称: 机器学习研究组订阅

连接人工智能技术人才和产业人才的交流平台

Mistral放大招！124B多模态巨无霸登场，免费版ChatGPT震撼突袭

机器学习研究组订阅 · 公众号 · AI · 2024-11-19 17:49

正文

Mistral AI终于放大招了！一连发布两大更新——

Pixtral Large：前沿级124B多模态模型，用于驱动新Le Chat。

全新Le Chat：具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供！

Mistral的CEO兼联创Arthur Mensch宣布道：「此次发布是一个重要的里程碑」！

现已可在官网上体验Le Chat的使用。

体验地址：https://chat.mistral.ai/chat

Pixtral Large：地表最强开源多模态来了？

在官博中，研究人员总结了Pixtral Large的5大亮点：

SOTA的多模态性能
在MathVista、DocVQA、VQAv2等任务上达到SOTA水平
在不影响文本处理性能的前提下对Mistral Large 2进行扩展
1230亿参数的多模态解码器，10亿参数的视觉编码器
128K上下文窗口长度：可容纳至少30张高分辨率图像

具体来说，Pixtral Large是Mistral多模态系列的第二个模型，基于Mistral Large 2构建，有1240亿参数。该模型能够理解文档、图表和自然图像，同时保持了Mistral Large 2卓越的纯文本理解能力。

Pixtral Large拥有128K上下文窗口长度，意味着它可以处理多达30张高分辨率图像或约300页书籍的输入，这一能力与OpenAI的GPT系列顶级模型相当。

该模型在Mistral研究许可证（MRL）下可用于研究和教育用途。模型及其权重可在Hugging Face平台上免费下载。

下载地址：https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main

性能评测

在评估视觉数据复杂数学推理能力的MathVista测试中，Pixtral Large获得了69.4的高分，超越了所有其他模型。

在评估复杂图表和文档推理能力的ChartQA和DocVQA测试中，Pixtral Large超过了GPT-4o和Gemini-1.5 Pro。

最后，Pixtral Large在反映多模态大语言模型实际使用场景的MM-MT-Bench测试中，表现也十分亮眼——凭借着7.4的得分，一举超越了新版Claude 3.5 Sonnet、Gemini-1.5 Pro和最新的GPT-4o。

定性实验

1. 多语言OCR和推理

提示：

我买了咖啡和香肠。我需要付多少钱？加上18%的小费。

回答：

要计算包含18%小费的总金额，请按以下步骤：

1. 计算咖啡和香肠的费用：

- 2杯拿铁玛奇朵：2 * 4.50 CHF = 9.00 CHF- 1份猪排：22.00 CHF- 咖啡和香肠的总费用：9.00 CHF + 22.00 CHF = 31.00 CHF

2. 计算18%的小费：

- 小费：31.00 CHF * 0.18 = 5.58 CHF

3. 将小费加入总费用：

- 应付总额：31.00 CHF + 5.58 CHF = 36.58 CHF

因此，需要支付总计36.58 CHF。

2. 图表理解

提示：

dark dragon什么时候开始出现问题？

回答：

「dark-dragon-50」模型的训练损失在大约10,000步时开始表现出明显的不稳定性。在这一点上，损失值表现出明显的峰值，这种不稳定性持续到大约20,000步时又有另一个主要峰值。这些峰值意味着，「dark-dragon-50」模型的训练过程在大约10,000步时开始遇到问题。

3. 其他案例

提示：

哪些公司使用Mistral AI开发的模型？

回答：

根据图片显示，使用Mistral AI模型的公司包括：BNP Paribas、Brave、Cloudflare、CMA CGM和Front。

「白嫖版」ChatGPT，图像生成搜索100%免费

全新升级后的Le Chat，能够支持图像生成、网络搜索、Canvas、PDF上传等强大功能。

关键是，完全免费。

你可以将其用作创意伙伴，教它执行特定的任务，并把它作为编码copilot。

基本上，任何日常中的任务，它都能胜任。

官方博文中，简要总结了Le Chat新的能力：

带引用的Web搜索
用于构思、文内编辑、导出的Canvas
最先进的文档和图像理解，由Pixtral Large 2加持
图像生成，直达Flux 1.1 Pro
从模型到输出的全面集成
由推测性编辑（speculative editing）提供更快的响应

那么，Le Chat和当前备受欢迎的聊天机器人/搜索助手区别都有哪些：

接下来，具体看下Le Chat带来的新能力。

网络搜索

Le Chat很大一部分用户是学生和专业人士，将其用于学习、研究和工作。

为了让其发挥更大的效力，Mistral AI团队通过互联网搜索增强了Le Chat的训练知识。

而且，它还得到了Pixtral Large 2加持，能够访问最新知识和事件。

在下面的实例中，一位营销团队的成员，用Le Chat来评估医疗保健AI市场。

AI给出的每个结果末，会附上相应的参考来源，供再次查证。

Canvas（画布）

前段时间，OpenAI曾发布了Canvas，目的是让AI与人类在ChatGPT中可以共同协作。

类似地，Le Chat中的Canvas，也充当着这个功能。

当你不仅仅需要的是对话，开始构思时，它会在聊天窗口中弹出。

如下，Mistral AI的产品团队在为Canvas推出时，创建了一个如何让大家使用新功能的演示。

左边的Canvas中给出了关于用户使用、管理等各种指标。

若是还有另外的要求，直接在右边的聊天界面要求——用 mockdata创建一个 React 仪表盘，显示这些指标。

而且，你还可以针对AI生成的代码进行再编辑，比如添加文本描述。

通过Canvas你可以创建文档、写代码等等，它能为你提供无限创造性思维。

快速准确理解文档

另外，Le Chat还能处理大型、复杂的PDF文档和图像，并对其进行分析和总结。

具体操作，和大家日常用的其他AI流程一样。

值得一提的是，它是由最强大的多模态Pixtral Large加持。

不如看看，Le Chat究竟有多强大？

上传一篇由爱因斯坦、波多尔西和罗森在1935年发表的著名量子纠缠论文，里面包含了很多复杂的公式。

然后让AI对论文进行信息提取、总结，和语义理解。

比如，基本的问题——论文作者是谁，并让它将论文总结成三段话。

Mistral放大招！124B多模态巨无霸登场，免费版ChatGPT震撼突袭

正文

性能评测

定性实验

网络搜索

Canvas（画布）

快速准确理解文档

请到「今天看啥」查看全文