刚刚！DeepSeek发布

中国基金报 · 公众号 · 基金 · 2025-02-18 17:30

正文

【导读】DeepSeek发布NSA技术论文

中国基金报记者泰勒

今天，马斯克发布Grok-3，随后，DeepSeek就推出NSA。

DeepSeek推出NSA

2月18日，DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。

DeepSeek称，NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制，实现超高速长上下文训练与推理！

NSA的核心组件包括：动态分层稀疏策略、粗粒度的Token压缩、细粒度的Token选择。

DeepSeek称，通过针对现代硬件的优化设计，NSA在提升推理速度的同时降低预训练成本且不牺牲性能。在通用基准测试、长上下文任务以及基于指令的推理中，NSA的表现可媲美甚至超越全注意力模型。

马斯克今日宣布Grok-3发布

埃隆·马斯克旗下的人工智能公司xAI于2月18日正式发布了最新的大模型Grok-3。

马斯克称其为“地球上最聪明的人工智能”，Grok-3在多项技术和性能上实现了重大突破。

马斯克在直播中称，在数学、科学和编程等基准测试中，Grok-3超越了Alphabet旗下Google Gemini、DeepSeek的V3模型、Anthropic的Claude和OpenAI的GPT-4o，Grok-3的计算能力比前代版本提升了10倍以上，并已于今年1月初完成预训练。

根据马斯克的介绍，Grok-3采用了“思维链”（Chain of Thought）技术，能够模拟人类逐步推理的过程，显著提升了模型在处理复杂任务时的逻辑连贯性和推理能力。

在现场演示中，Grok-3被要求解决一个复杂的物理问题，即计算从地球到火星的转移轨迹，并绘制3D动画。xAI提到，这一任务完全没有预设脚本，Grok-3仅通过简短的指令“生成地球发射、火星着陆以及下一次发射窗口返回地球的动画3D图”进行操作。Grok-3能够理解复杂的物理计算并生成可视化图形，证明其在科学计算方面的能力。

在训练Grok-3的过程中，xAI搭建了由20万张英伟达H100 GPU组成的超大规模计算集群。这一庞大算力使得Grok-3的训练效率和模型性能大幅提升。