专栏名称: AI前线

InfoQ十年沉淀，为千万技术人打造的专属AI公众号。追踪技术新趋势，跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。

梁文锋、杨植麟同一天发论文“秀肌肉”，主题居然撞上了！下一代模型要来了？

AI前线 · 公众号 · AI · 2025-02-20 22:54

主要观点总结

本文介绍了DeepSeek和月之暗面两个研究团队几乎同时发布了关于改进Transformer架构中注意力机制的研究成果，旨在提升处理长文本的能力并降低计算成本。文章介绍了两篇论文的具体内容以及它们之间的对比。DeepSeek提出的NSA和月之暗面提出的MoBA都是针对现有模型在处理长文本时面临的问题进行的改进，通过实验验证了它们在处理长文本时的有效性。另外，文章还提到两家公司之前也有相似的技术思路，并且都受到关注。最后推荐了QCon全球软件开发大会，提供了报名优惠信息。

关键观点总结

关键观点1: DeepSeek和月之暗面两个研究团队都发布了关于改进Transformer架构中注意力机制的研究成果。

两个团队的研究都聚焦于提升模型处理长文本的能力并降低计算成本，这是当前AI领域的一个热门研究方向。

关键观点2: DeepSeek提出的NSA和月之暗面提出的MoBA都是针对现有模型在处理长文本时的问题进行的改进。

NSA通过动态分层稀疏策略实现了对长上下文的高效建模，而MoBA则提出了一种混合块注意力的新方法，让模型自己决定该关注哪些部分。

关键观点3: 两家公司的研究成果都经过了实验验证，在处理长文本时表现出了良好的效果。

这意味着改进后的模型能够更高效地处理长文本，同时保持较高的性能。

关键观点4: 之前两家公司也有相似的技术思路，并且都受到了关注。

这次的研究成果再次表明他们在AI领域的创新能力和实力。

关键观点5: QCon全球软件开发大会将聚焦AI技术，包括智能融合等主题。

这次大会将汇聚全球的技术先行者和创新实践者，为行业发展提供有价值的讨论和交流机会。

正文

整理｜冬梅

2 月 18 日，DeepSeek 和月之暗面（Moonshot AI）几乎在同一时间发布了各自最新的研究成果，巧合的是，两篇论文的主题高度一致——都聚焦于改进 Transformer 架构中最核心的注意力机制，旨在提升其处理长上下文的能力并降低计算成本。由此可见，大家都在争相研究如何让 AI 更好地处理长文本，这不仅说明了行业对高效处理长文本的需求非常迫切，也是技术创新竞争进入白热化的缩影。

更有趣的是，两家公司的技术派明星创始人都亲自参与了研究，他们的名字分别出现在各自的论文和技术报告中，此举引发了外界的强烈关注。

2017 年，Transformer 架构被谷歌提出后便在技术圈内掀起热潮，它的出现被认为是 AI 发展史上的重要里程碑。但如此厉害的注意力机制，却有一个问题，它计算起来的复杂程度是和输入序列的长度是相关的，具体来说计算复杂度是输入序列长度 n 的平方，写成公式就是 O (n²)。

这就导致了在处理长的文本序列时，比如长度超过 1 万个 token 的文本，计算所需要的成本会大幅增加，而且还会占用很多内存。这就成了限制模型进一步扩大规模、提升能力的主要障碍。

DeepSeek 和月之暗面这两个研究团队都在想办法解决这个问题，他们用的方法叫稀疏注意力（Sparse Attention）。稀疏注意力的主要思路就是，在进行注意力计算的时候，减少那些没有必要的交互计算。这样一来，计算复杂度就能从原来的 O (n²) ，降低到 O (nlogn)，甚至能达到 O (n)。而且，在降低复杂度的同时，还尽量让模型保持对长文本上下文的理解和处理能力。

两篇论文都说了什么？

那么，这两篇论文都具体说了什么？

首先是 DeepSeek 的论文，这篇论文名为《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》，主要讲述了 DeepSeek 提出的一种可原生训练的稀疏注意力机制 NSA（英文全称：Natively Trainable Sparse Attention，简称 NSA），能够通过动态分层稀疏策略，结合粗粒度 token 压缩和细粒度 token 选择，实现了对长上下文的高效建模。简而言之，就是能通过减少不必要的计算，让模型在处理长文本时既快又好。

长上下文建模是指让语言模型能够理解和处理很长的文本（比如一本书或一篇长文章）。这对于下一代语言模型非常重要，因为很多任务需要模型记住和理解大量的信息。但现在的问题是，现有的标准注意力机制（比如 Transformer 中的注意力机制）在处理长文本时计算量非常大，导致训练和推理速度变慢，成本也很高。

稀疏注意力是一种改进的方法，它通过减少不必要的计算来提高效率，同时尽量保持模型的能力。NSA 就是一种新的稀疏注意力方法，它通过两个关键创新来实现高效的长上下文建模，具体而言：

算法优化 ：NSA 机制设计了一种平衡计算强度的算法，并且针对现代硬件进行了优化。简单来说，它通过减少不必要的计算步骤，让模型在保持性能的同时跑得更快。这就像在读一本很厚的书时，不再需要逐字逐句地读，而是通过快速浏览章节标题和重点段落来理解主要内容。NSA 就像这种高效的阅读方式，它只关注重要的部分，跳过了不重要的细节，从而节省了时间。

端到端训练 ：NSA 还允许模型从头到尾（从输入到输出）进行训练，而不需要在中间增加额外的计算步骤。这样既减少了训练时间，又不会降低模型的表现。

实验表明，使用 NSA 训练的模型在多个任务上（比如阅读理解、长文本生成等）表现得和全注意力模型一样好，甚至更好。而且，在处理非常长的文本（比如 64k 长度的序列）时，在解码、前向传播和后向传播过程中分别实现了 2.5 倍、3.1 倍和 2.8 倍的加速，同时在多个长上下文任务（如长文本生成、问答和指令推理）中保持了与全注意力模型相当甚至更好的性能。

也就是说，NSA 通过减少不必要的计算，让模型在处理长文本时既快又好。

下图是全注意力模型（Full Attention）与 DeepSeek NSA 模型在性能和效率上的对比：

左图：尽管 NSA 是稀疏的，但它在通用基准测试、长上下文任务和推理评估中的平均表现超越了全注意力基线模型；
右图：在处理 64k 长度的序列时，NSA 在解码、前向传播和后向传播的所有阶段都实现了显著的计算加速，相比全注意力模型效率大幅提升；

同一天，月之暗面提交的论文名为《MoBA: Mixture of Block Attention for Long-Context LLMs》，也是一篇针对模型架构展开的讨论。

月之暗面的论文中提出了一个在核心思想上与 NSA 较为一致的架构： 注意力混合架构 MoBA 。（英文全称：Mixture of Block Attention，简称 MoBA）。

月之暗面同样阐述了目前世面上主流 AI 语言模型在处理长文本时，面临一个很大的问题：随着文本变长，计算量会急剧增加。这是因为传统的注意力机制需要计算每个词与其他所有词的关系，导致计算复杂度呈二次增长（比如文本长度增加 10 倍，计算量可能增加 100 倍）。这不仅让模型变慢，还增加了成本。

而现有方法在应对上述问题时都有局限性，比如：

固定模式：比如只关注文本的开头或结尾（下沉注意力），或者只关注附近的一小段文本（窗口注意力）。但这些方法的问题是，它们假设某些部分更重要，忽略了其他可能的关键信息。
简化计算：比如用线性近似代替复杂的注意力计算。虽然这样计算更快，但在处理复杂任务时，效果可能不如人意。

因此，月之暗面提出了一种新方法，叫做混合块注意力（MoBA）。它的核心思想是：让模型自己决定该关注哪些部分，而不是人为规定。这种方法借鉴了“专家混合（MoE）”的思想，就像让一群专家分工合作，每个人负责自己擅长的部分。

MoBA 的优势主要有两点：一是可以灵活切换：MoBA 可以根据需要，自动在全注意力和稀疏注意力之间切换。全注意力适合处理复杂任务，而稀疏注意力适合处理长文本，效率更高；二是高效且不影响性能：MoBA 在保持模型性能的同时，显著降低了计算量。比如在处理长文本时，它可以跳过一些不重要的部分，只关注关键信息，从而节省时间和资源。

目前，MoBA 已经被用在 Kimi（一个 AI 助手）中，帮助它更好地处理长文本请求。比如，当你让 Kimi 总结一本长篇小说时，MoBA 可以让它快速找到关键情节，而不需要逐字逐句地分析整本书。

下图是切注意力混合（MoBA）示意图：

（a）切块注意力混合（MoBA）的一个实例；（b）将块注意力混合（MoBA）集成到快速注意力机制（Flash Attention）中。

那与全注意力机制相比，效果如何？下图展示了 MoBA（蓝色线条）和全注意力机制（红色线条）在不同方面的对比情况：

(a) 验证集上的语言模型损失（序列长度 = 8K）；(b) 验证集上的尾随语言模型损失（序列长度 = 32K，最后 1K 个标记）；(c) 拟合的缩放定律曲线。

(a) 子图：展示了在序列长度为 8K 时，验证集上的语言模型损失随着 PFLOP/s - days（一种计算量单位）的变化趋势。可以看到随着计算量的增加，两种方法的语言模型损失都在下降，且 MoBA 和全注意力机制的曲线较为接近。
(b) 子图：显示了在序列长度为 32K 且只关注最后 1K 个标记时，验证集上的尾随语言模型损失随 PFLOP/s - days 的变化。同样，随着计算量上升，损失下降，两者曲线有相似的下降趋势。
(c) 表格：给出了拟合的缩放定律曲线公式。这些公式可以用于预测在不同计算资源（C）下的损失情况。

也就是说，在不同序列长度和损失计算方式下，MoBA 和全注意力机制在计算量与损失关系上表现出一定的相似性。

一起瞄准思维链，

又一起聚焦模型架构

事实上，这不是两家公司第一次中心思想“大撞车”。

在 DeepSeek 发布 R1 时，Kimi 也难得地公开了 K1.5 的技术报告。要知道，Kimi 这家公司以前并不太喜欢对外展示自己的技术思路，但这次却破例了。有意思的是，这两篇论文的目标非常相似，都是想通过强化学习（RL）来提升 AI 的推理能力。

如果你仔细对比这两篇论文，会发现 K1.5 的报告在“如何训练一个推理模型”这个问题上，讲得更详细、更深入。无论是提供的信息量，还是技术细节的丰富程度，K1.5 都更胜一筹。不过，由于 DeepSeek 的 R1 发布后吸引了更多人的关注，K1.5 的论文反而被“冷落”了，没有得到应有的讨论和重视。

值得注意的是，连 OpenAI 也注意到了这两家总是思想撞车的 AI 明星创企。OpenAI 在其关于 o 系列模型推理能力讲解的论文里提及 DeepSeek - R1 和 Kimi K1.5。

DeepSeek - R1 通过独立研究运用思维链学习（COT）方法，实现了在数学解题和编程挑战中的优异表现。

在数学解题中，这种方法可以帮助模型更好地理解问题的逻辑结构，从已知条件逐步推导得出正确答案。例如在解决几何证明题时，模型可以按照思维链的步骤，先识别图形的性质和已知条件，然后运用相应的定理和规则进行推理，最终完成证明。

在编程挑战中，思维链学习使模型能够更清晰地规划代码结构，理解不同代码片段之间的逻辑关系，从而编写出更高效、准确的代码。

Kimi K1.5 同样通过独立研究采用思维链学习（COT）方法，在数学解题与编程挑战提高了模型效果。

而 OpenAI 选择 DeepSeek - R1 和 Kimi k1.5 作为对比的推理模型，一方面体现了这两个模型在推理能力已经得到了行业巨头的认可；另一方面，这也反映出思维链学习（COT）方法在提升模型推理能力方面的有效性和重要性得到了广泛关注。

这次两家又一起“杠”上了模型架构，或许从侧面说明了，我们距离下一步模型创新又近了一步。

声明：本文为 InfoQ AI前线整理，不代表平台观点，未经许可禁止转载。

参考链接：

https://arxiv.org/html/2502.11089v1

https://github.com/MoonshotAI/MoBA?tab=readme-ov-file

会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下，变革与机遇交织，挑战与突破共生。2025 年 4 月 10 - 12 日，QCon 全球软件开发大会将在北京召开，以 “智能融合，引领未来” 为年度主题，汇聚各领域的技术先行者以及创新实践者，为行业发展拨云见日。现在报名可以享受 8 折优惠，单张门票立省 1360 元，详情可联系票务经理 18514549229 咨询。