专栏名称: 深度学习与图网络
关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
51好读  ›  专栏  ›  深度学习与图网络

⾼效的处理⾼达400万token的输⼊:GPT-4o的32倍,Claude-3.5-Sonnet的20倍

深度学习与图网络  · 公众号  ·  · 2025-01-22 13:13

正文

来源:JackCui

在人工智能飞速发展的今天,大模型已经成为推动技术进步的核心引擎。 从自然语言处理到多模态理解,AI 的能力边界不断被突破,而每一次突破都离不开底层技术的创新。

然而万万没想到,2025 开年惊喜是 MiniMax 给的,就是海螺 AI 背后的中国大模型 AI 创业公司。

近日,MiniMax宣布开源两款全新的大模型: MiniMax-Text-01 MiniMax-VL-01

MiniMax-Text-01 是一款基础语言大模型,具备强大的文本理解和生成能力,性能表现优异。

而 MiniMax-VL-01 是视觉多模态大模型,能够处理图像、视频和文本的多模态任务,展现了卓越的跨模态理解能力。

在这一代大模型中,MiniMax 在业内首次大规模应用了线性注意力机制,突破了传统 Transformer 架构的记忆瓶颈!在综合性能追平顶尖海外模型的基础之上,能够⾮常⾼效的处理⾼达 400万 的输⼊。什么概念呢?400w token的上下文,是GPT-4o的 32倍 ,Claude-3.5-Sonnet的 20倍

线性注意力机制突破

近年来,随着大模型和长上下文需求的增加,如何在不牺牲性能的前提下扩展上下文窗口成为了一个重要的研究方向。

传统的Transformer架构依赖于Softmax注意力机制,虽然它在处理短序列时表现出色,但随着序列长度的增加,计算和内存开销呈指数级增长(O(n²)),这严重限制了其在长序列任务中的应用。

本次MiniMax 采用的的 线性注意力机制(Linear Attention) 通过将计算复杂度从O(n²)降低到O(n),提供了一种可行的解决方案。

线性注意力机制的提出并非仅仅是为了减少计算复杂度,而是为了解决Transformer在处理长序列时的根本性瓶颈。传统的Softmax注意力机制虽然强大,但其二次方的计算复杂度使得它在处理数百万token的上下文时变得不切实际。

线性注意力机制的关键在于其通过矩阵分解将注意力计算分为两个部分:左积和右积。左积部分用于计算每个token的局部注意力,而右积部分则通过递归更新全局的键值对(KV)状态。而线性注意力机制的核心创新在于其通过 “右积核技巧”(Right Product Kernel Trick) 将传统的Softmax注意力机制转化为线性计算,从而显著提升了计算效率。

同时,为了弥补线性注意力机制在处理某些任务(如检索任务)时的不足,MiniMax采用了 专家混合模型架构(MoE, Mixture of Experts) ,即在每7个线性注意力层后加入一个Softmax注意力层。这种设计既保留了线性注意力机制的高效性,又通过Softmax注意力层增强了模型的检索能力。

MiniMax-Text-01模型的总参数量高达 4560亿 ,其中单次激活的参数量为 459亿 。这种大规模的参数量使得模型能够处理长达400万token的上下文窗口。为此,MiniMax使用了1500-2500张GPU训练如此规模的数据。

通过线性注意力机制的引入和混合架构的设计,MiniMax-01系列模型在保持高性能的同时,显著提升了处理长序列任务的能力,为未来的大规模语言模型提供了新的可能性。

接下来,让我们一起看看,这一代大模型的性能表现吧!

性能表现

首先,让我们看一下MiniMax-Text-01模型在长上下文理解测试中的表现。

可以看到,当上下文窗口的量级来到百万级别(Million)时,MiniMax-Text-01的表现相比起传统大模型,有着压倒性的优势!

同时,我们可以看到,在比较的过程中,随着上下文规模的逐渐增大,部分模型如GPT-4o、Claude-3.5-Sonnet已经不支持这么长的上下文了。而MiniMax-Text-01的潜力远不止此,它可以处理高达400万 token 的上下文,是其他常规模型的 20-32倍

我们再参考一下模型在一些学术基准(Academic Benchmark)和 LongBench V2 测试中的表现。

MiniMax-Text-01在多个任务中表现优异,尤其是在 MMLU 和 C-SimpleQA等多任务语言理解和中文简单问答任务中,表现尤为突出,整体上显示出强大的综合能力。

MiniMax-Text-01在LongBench v2的整体表现中得分为56.5(带CoT)和52.9(不带CoT),显著优于其他模型。

  • 带CoT(Chain-of-Thought):MiniMax-Text-01在带CoT的测试中得分为56.5,明显高于GPT-4o的51.4和Claude-3.5-Sonnet的46.7。这表明MiniMax-Text-01在复杂推理任务中具有显著优势。

  • 不带CoT:在不带CoT的测试中,MiniMax-Text-01总得分为52.9,仍然领先于各大模型。这进一步证明了MiniMax-Text-01在长上下文理解任务中的强大能力。

总的来说,MiniMax-Text-01 拥有与其他主流大模型近乎齐平的综合能力,同时又能在长上下文场景中有独树一帜的出色发挥。

未来展望

随着人工智能技术的快速发展,Agent(智能体)技术在各个领域的应用越来越广泛。无论是单Agent系统还是多Agent系统,长上下文支持都成为了一个关键需求。

  • 单Agent系统:在单Agent系统中,持续的记忆能力是至关重要的。例如,在对话系统中,Agent需要记住用户的长期偏好和历史对话内容,以提供个性化的服务。此外,在复杂的任务执行中,Agent需要能够处理大量的上下文信息,以做出准确的决策。

  • 多Agent系统:在多Agent系统中,Agent之间的通信和协作需要处理大量的上下文信息。例如,在自动驾驶系统中,多个Agent需要实时共享环境信息、交通状况和决策结果,以确保整个系统的协调运行。随着任务复杂度的增加,Agent之间的通信量也会显著增加,这就要求系统能够高效地处理长上下文。

本次MiniMax-01系列模型采用的线性注意力机制无疑是解决Agent系统长上下文需求的一大利器,解决了长文本输入的计算瓶颈,为Agent技术的发展奠定了坚实的基础。随着线性注意力机制的不断优化,Agent技术在各个领域的应用将会越来越广泛。

多模态应用举例

同时,线性注意力机制的大规模实现,标志着人工智能领域的一个重要里程碑,未来 Transformer 架构不再是唯一可行解,这为大模型的结构设计提供了新的思路。







请到「今天看啥」查看全文