杨植麟和梁文锋，论文撞车了

APPSO · 公众号 · app · 2025-02-22 11:58

正文

作者｜王兆洋

在马斯克发布了他用 20 万张卡训出的 Grok 3 的同一天，两篇与马氏大力出奇迹「相反」路线的论文也发表在了技术社区。

在这两篇论文的作者名目里，各自有一个大家熟悉的名字：

梁文锋，杨植麟。

2 月 18 日，DeepSeek 和月之暗面几乎同时发布了他们各自最新的论文，而主题直接「撞车」—— 都是挑战 Transformer 架构最核心的注意力机制，让它能更高效的处理更长的上下文。而更有趣的是，两家公司的技术派明星创始人的名字出现在各自的论文和技术报告里。

DeepSeek 发布的论文，标题名为：《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

根据论文，它提出的新架构 NSA（原生稀疏注意力）在基准测试中，与全注意力机制相比，准确率相同或更高；处理 64k 标记序列时，速度可提高至 11.6 倍，训练也更高效，所需算力更少；在处理超长上下文的任务（如书籍摘要、代码生成、推理任务）中表现出色。

与此前人们津津乐道的算法上的创新相比，DeepSeek 这一次把手伸向了最核心的注意力机制（attention）的改造上。

Transformer 是今天所有大模型繁荣的基础，但它的核心算法注意力机制依然有先天的问题：拿读书做比喻，传统的「全注意力机制」为了理解和生成，会阅读文本里的每个词，并拿它与其他所有词作比较。这样导致处理文本越长它越复杂，技术越卡，甚至崩溃。

此前学术界一直在提供各种解决的思路，NSA 通过真实环境的工程优化和实验，组装出了一个由三个环节组成的可以用在训练阶段的架构方案：

它包括，

1）语义压缩——不再是看每个词，而是分成一个组，也就是「块」，在保留全局语义的同时将序列长度缩减至 1/k，同时引入位置编码来降低信息的损耗，进而将计算复杂度从 O(n²) 降为 O(n²/k)。

2）动态选择——模型以某种得分判断机制，从文本中挑出最多关注的词，对它们进行细粒度的计算。这种重要性采样策略在减少 75% 计算量的情况下仍能保持 98% 的细粒度信息。

3）滑动窗口——前两者是摘要和划重点的话，滑动窗口就是查看最近的上下文信息，这样可以保持连贯性，而通过硬件级显存复用技术可以将内存访问频次降低 40%。

这些思路每一个都不是 DeepSeek 的发明，但可以把它想象成 ASML 式的工作——这些技术元素已经存在，散落在各处，但工程上把它们组合在一起成为一个可以规模化的方案，新的算法架构，还没人做过。现在有人通过强大的工程能力做出来了一台「光刻机」，其他人可以用这个来在真实工业环境里训练模型。

而月之暗面在同天发布的论文，提出了一个在核心思想上非常一致的架构：MoBA。（MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS）

从它的名字就可以看到，它同样使用了把「词」变成块的方法。在「切块」后，MoBA 里有个像「智能筛选员」一样的门控网络，它负责挑选与一个「块」最相关的 Top-K 个块，只对这些选中的块计算注意力。在实际实现过程中，MoBA 还结合了 FlashAttention（能让注意力计算更高效）和 MoE（专家混合模型）的优化手段。

与 NSA 相比，它更强调灵活性，没有完全离开现在最主流的全注意力机制，而是设计了一套可以自由切换的方式，让这些模型可以在全注意力和稀疏注意力机制之间切换，给已有的全注意力的模型更多的适配空间。

根据论文，MoBA 的计算复杂度随着上下文长度增加而优势明显。在 1M token 的测试中，MoBA 比全注意力快了 6.5 倍；到 10M token 时，则提速 16 倍。而且，它已经在 Kimi 的产品中使用，用来处理日常用户们的超长上下文的处理需求。

杨植麟最初创办月之暗面受到关注的一个重要原因，是他的论文影响力和引用量，但 K1.5 论文之前，他最后一篇论文类的研究停留在 2024 年 1 月。而梁文锋虽然作为作者出现在 DeepSeek 最重要的模型技术报告里，但这些报告的作者名录几乎相当于 DeepSeek 的员工名录，几乎所有人都列在里面。而 NSA 的论文作者则只有几人。由此可以看出这两个工作对这两家公司创始人来说的重要性，以及对了解这两家公司技术路线的意义。

另一个可以为这种重要性做注脚的细节是，有网友发现，arxiv 上 NSA 这篇论文的提交记录显示，它在 2 月 16 日提交，提交者正是梁文锋自己。

这不是月之暗面和 DeepSeek 第一次「撞车」。在 R1 发布的同时，Kimi 难得的发布了 K1.5 的技术报告，此前这家公司并不以对外展示它的技术思考为优先重点。当时这两篇论文同时把目标瞄准了 RL 推动的推理模型。事实上，仔细阅读这两篇技术报告，在 K1.5 的论文里，月之暗面对如何训练一个推理模型做了更详细的分享，甚至单从信息度和细节程度上，它是高过 R1 论文的。但之后 DeepSeek 的风潮掩盖掉了不少对这篇论文本身的讨论。

一个可以作为印证的，是 OpenAI 最近难得发布的一篇对其 o 系列模型推理能力讲解的论文里，同时点了 DeepSeek R1 和 Kimi k1.5 的名字。「DeepSeek-R1 和 Kimi k1.5 通过独立研究显示，利用思维链学习（COT）方法，可显著提升模型在数学解题与编程挑战中的综合表现。」也就是说，这是 OpenAI 自己选来用来对比的两个推理模型。

「大模型这套架构最神奇的一点我感觉就是它似乎自己就指出了前进的路线，让不同的人从不同的角度得出了相似的前进方向。」

参与了 MoBa 核心研究的清华大学教授章明星在知乎上分享。

他还提供了一个很有趣的对比。

「DeepSeek R1 和 Kimi K1.5 都指向了 ORM based RL，不过 R1 从 Zero 开始，更加‘存粹’或者说‘less structure’一些，上线更早，同步开源模型。

Kimi MoBA 和 DeepSeek NSA 再一次都指向了可以反向传递的 learned sparse attention，这一次 MoBA 更加 less structure 一些，上线更早，同步开源代码。」

这两家的连续「撞车」有助于人们对比着更好理解强化学习的技术发展，以及更高效更长文本的注意力机制的进化方向。

「结合 R1 和 K1.5 一起看能更好的学习 Reasoning Model 怎么训一样，结合 MoBA 和 NSA 一起看能从不同侧面更好的理解我们对于 —— Attention 中 sparsity 应当存在而且可以通过端到端训练习得 —— 的相信。」章明星写到。

在 MoBA 发布后，月之暗面的许欣然也在社交媒体上称，这是一个做了一年半的工作，现在开发者可以开箱即用。

杨植麟和梁文锋，论文撞车了

正文

请到「今天看啥」查看全文