专栏名称: 信息平权
理性 客观 朴素
目录
相关文章推荐
文商资讯  ·  多地政府将引入DeepSeek辅助领导干部决策 ·  昨天  
文商资讯  ·  多地政府将引入DeepSeek辅助领导干部决策 ·  昨天  
昆明警方发布  ·  警惕!传播“病毒”的新手法出现 ·  昨天  
昆明警方发布  ·  警惕!传播“病毒”的新手法出现 ·  昨天  
安小圈  ·  震惊!工商银行伦敦支行遭遇Hunters ... ·  2 天前  
安小圈  ·  震惊!工商银行伦敦支行遭遇Hunters ... ·  2 天前  
信息平权  ·  今天的两个极端 ·  2 天前  
51好读  ›  专栏  ›  信息平权

今天的两个极端

信息平权  · 公众号  · 互联网安全  · 2025-02-18 19:36

主要观点总结

本文主要围绕xAI推出的Grok3和DeepSeek发布的NSA原生稀疏注意力技术进行讨论,分析了两者在技术特点、应用场景和工程实现上的不同之处和各自的优势。文章还涉及了模型训练的未来趋势、工程规模和效率的探索、开源与闭源模型的对比,以及训练基座和RL双轮驱动的重要性等议题。

关键观点总结

关键观点1: NSA论文的核心思想

有效降低长上下文注意力的计算成本,是对去年5月MLA工作的补充,MLA和NSA在模型压缩方面有所不同。

关键观点2: NSA技术的应用前景

如果DeepSeek后续训练中整合NSA技术,可以预期其基座模型整体能力会有显著提升。

关键观点3: NSA论文的额外亮点

提到了使用NSA预训练的模型超过了全注意力模型,并且论文中提到的一些细节,如Triton的使用和对多种计算卡的适配性。

关键观点4: 工程规模和效率的探索

文章讨论了探索出理论上限后,接下来如何探索工程规模和效率的上限,以及不同训练方法在未来训练模型上的影响。

关键观点5: 开源与闭源模型的对比

讨论了开源模型与北美昂贵成本训练的闭源模型的对比,以及开源模型在持续开源和经济性上的可能性。


正文

就在xAI隆重推出20w卡集群产物Grok3的同时,DeepSeek选择临近时间扔出来一份重磅论文:NSA原生稀疏注意力。两件事放在一起,我们看到了什么?


1. NSA这篇论文的核心思想,是如何有效降低长上下文注意力的计算成本。算是 对去年5月MLA工作的补充 不要低估这次的国产模型 )。MLA是对隐空间的压缩,而NSA是从序列长度的压缩。


2. MLA已经在V2、V3体现,但NSA还未没有应用于V3的训练中。 意味着如果后续DeepSeek训练中整合NSA, 可以预期DS基座模型整体能力,还有一次比较显著的提升 。论文中原话:“使用NSA预训练的模型超过了全注意力模型”


3. NSA论文有一个彩蛋:当时V3一个亮点就是基于CUDA和PTX,充分挖掘了N卡性能。但 NSA这次用了Triton ,没有提及N卡专用库和框架。Triton底层可以调用CUDA,也可以调用其他比如AMD的rocm,当然也可以调用国产卡......而另一边NSA降低了浮点算力和内存占用的门槛。Triton已经很久了, 但海外实践证明并不是对CUDA的替代 ,在N卡充裕的情况下N依然是最好选择。但国内情况大家懂的, DeepSeek可能 为了后续更广泛、更普遍的开源 , 在模型研发阶段就开始考虑, 后续适配更多类型的计算卡 。这里也不要直接解读过利空英伟达,这都是国内被逼出来的特殊境地...(反面例子请参考xAI的20w卡集群)


4. 每当探索出一个阶段的理论上限, 接下里往往是 探索工程规模和效率的上限 。北美“财大气粗”,xAI代表了对 工程规模上的极致追求 (Grok4要用百万卡、1.2GW集群)。DeepSeek算力受限,代表了对 工程效率上的极限压榨 。但DS的这条路径,让持续开源在经济性上成为可能。而廉价的开源,的确压制了北美以昂贵成本训练出的闭源模型,甚至可以比作 数字化版本的“商品倾销”。


5. 这代表了训练什么样的未来呢?今天中午发在星球的帖子:“ xAI 这次 单纯靠超大集群,就用这么短时间反超了之前的SOTA ,说明卷算力依然是核心。但 仔细想想用了20w卡集群,尤其是对比V3, 50倍成本实现30%的反超.... 说明Pre-train收益的确不大,不如投到RL后训练更划算。 基座和 RL双轮驱动甚至脚踩脚也是共识 ,基座还得继续搞。”


6. 帖子下面有读者打了很好的比方:“ 一个原本60分的学生稍一努力就可以到90,原本90的再怎么努力也不一定能上到95。基数不同边际效果当然不同。但90的不努力不就被人超越了?所以还是得努力







请到「今天看啥」查看全文