专栏名称: 橘子汽水铺
橘子汽水铺 by orange.ai。 AI创始人, AI投资人,AI产品经理都在关注的AI科技自媒体。 聚焦最有商业价值的AI资讯,分享一线的AI产品经理经验。
目录
相关文章推荐
数据中心运维管理  ·  探索数据中心的多模光纤距离限制 ·  4 天前  
数据中心运维管理  ·  DeepSeek加速大马数据中心发展 ·  3 天前  
程序员鱼皮  ·  MyBatis 批量操作的 5 ... ·  昨天  
程序员鱼皮  ·  MyBatis 批量操作的 5 ... ·  昨天  
太格有物  ·  品牌故事|茶酔:推广清醒好奇文化 ... ·  4 天前  
数据分析与开发  ·  为 DeepSeek 辟谣:五大误解与真相解读 ·  4 天前  
51好读  ›  专栏  ›  橘子汽水铺

MiniMax 深夜首次开源,400万长文本,全新架构,挑战Transformer

橘子汽水铺  · 公众号  ·  · 2025-01-15 13:40

正文

昨天深夜,MiniMax 突然宣布发布自家最新语言大模型,并且历史首次全面开源。

  • 基础语言大模型 MiniMax-Text-01,视觉多模态大模型 MiniMax-VL-01

  • 全新的 Lightning Attention 架构,平方变线性,大幅降低推理成本

  • 重磅开源,文本模型参数高达 4560亿,32 个专家

  • 超超长 400 万字长上下文,且性能追平顶尖海外模型

  • 模型、代码、技术报告已经全部发布,非常真诚

目前网页体验和API也都已经上线,可以在线体验和商用,地址见文章最后。

新技术:Lightning attention

这次模型最让人惊喜的就是全新的线性注意力架构。

大家都知道在实际的 AI 使用中,长文本至关重要,角色聊天的超长记忆,AI Coding 写代码,Agent 完成各种任务,哪个场景都离不开长文本。

大模型虽然一直在降价,但是使用的时候上下文越长,速度就越慢,价格也就越贵。

这个问题的根源是 Transformer 架构有二次计算复杂度。随着上下文的增加,推理的算力消耗是指数上升的。

而这次 MiniMax 的新模型,使用了 Lightning attention 机制,是一种线性注意力机制,能够大幅降低长文本的计算量和推理时间。

在技术报告中,可以看到对这次模型的主要架构图。


这个架构对模型推理资源消耗的降幅非常巨大,通过下面的长文本的推理时间对比图就能看出,在上下文持续上升时,使用了线性注意力让推理时间接近线性地缓慢增加,而非指数级别增加。

更详细的介绍可参见文末的技术报告。

计算量降低了,价格下来了,性能也不能损失,长文本才算真正可用。

下图是 Text-1 在超长文本评测集的性能表现,在512K的长度以上的区间,性能竟然超过了 Gemini 2.0 Flash。

技术报告里另外一个非常有趣的点是,随着上下文的提升,模型的 In-Context Learning 能力,逐渐增强,这对 AI 写作以及需要长记忆的任务都有巨大的帮助。

总的来说,Lightning attention 机制的应用,让大模型的长文本可用性大幅提升,价格也有机会再下降一个量级,未来,非常值得期待。

模型性能,追平一线

模型性能指标方面,作为开源模型,在很多指标追上了最佳的海外闭源模型。

并且由于模型有海螺平台反馈进行优化迭代,用户真实场景的使用体验也有保证。

官方利用真实的用户使用场景构建了一个测试集,可以看出在真实场景的表现也很亮眼,特别突出的场景是三个:创意写作、知识问答、长文本。

另外,视觉理解模型 MiniMax-VL-01 表现,基本在每个指标上都追平或超过了海外顶级模型,特别是实用的 OCR 和 图表场景。







请到「今天看啥」查看全文