华泰 | Grok-3：RL成为共识，持续看好预训练算力需求

华泰睿思 · 公众号 · 证券 · 2025-02-20 07:26

正文

我们认为，一方面Grok-3训练集群已达到20万卡级别，证明预训练在算力提升下仍能突破；另一方面，xAI将采用“延迟开源”策略，即在Grok-3打磨完善后，开源Grok-2，实现了商业化和开源的平衡，开源社区有望被持续赋能。我们持续看好全球头部大模型预训练算力需求。

点击小程序查看研报原文

核心观点

2025年2月18日，xAI发布了基于全球最大算力集群（约20万块GPU）训练的新一代大模型：1）预训练模型：Grok-3与Grok-3 mini，在Math、Science、Coding测评集上超过了Gemini-2 Pro、GPT-4o以及DeepSeek-V3；2）推理模型：Grok-3的Reasoning版本在性能上超越了OpenAI o3 mini (high)。Grok-3系列将首先面向X平台的Premium Plus订阅用户开放，包括聊天功能、DeepSearch与高级推理模式。我们认为，一方面Grok-3训练集群已达到20万卡级别，证明预训练在算力提升下仍能突破；另一方面，xAI将采用“延迟开源”策略，即在Grok-3打磨完善后，开源Grok-2，实现了商业化和开源的平衡，开源社区有望被持续赋能。

继续看好大模型预训练算力需求

xAI指出，Big intelligence requires big compute，Grok-3相比Grok-2提升了10x的训练算力。2024年9月3日，马斯克宣布xAI的10万卡H100集群上线，本次发布会再次表示xAI的训练集群GPU数已扩大到了20万。我们认为，虽然目前在预训练数据上存在瓶颈，但是合成数据、RL数据、工程能力优化，甚至Transformer架构迭代，或能逐步打破瓶颈，Grok-3已经证明预训练依然有突破空间，持续看好全球头部大模型预训练算力需求。

在预训练基座模型上进行大规模RL将是25年主线

OpenAI于2024年9月推出o1系列模型，并且首次公开提出将RL运用在大模型的后训练中，实现大模型以思维链（CoT）方式推理。DeepSeek-R1独立摸索出了在预训练模型V3基础上，直接使用GRPO算法来进行大规模的强化学习并获得成功。Google Gemini 2.0也发布了Flash Thinking的推理模型，Anthropic也宣布即将发布能手动控制成本的推理模型。RL已经成为全球模型厂商共识的技术迭代路径。本次Grok-3发布，同样更新了Reasoning模型，运用RL+CoT的方式实现Test-Time Compute，并且基于更好的Grok-3基座模型，超过了o3-mini的推理性能。我们认为，RL将成为2025年模型迭代的主线，迭代方法或是继续加大RL的步数（steps）或改进RL框架，以更好的训练模型CoT作答能力。

DeepSearch成为Agent集中落地的方向，更多Agents有望问世

整合信息进行输出的Agent正成为集中落地方向。OpenAI于2月3日发布Deep Research功能，这是一个使用推理来综合大量在线信息并为用户完成多步骤研究任务的智能体。同样，xAI本次发布会发布基于Grok-3的第一代Agent产品DeepSearch，能深入思考用户意图，浏览多个网站内容，在输出最终答案前会验证不同来源，确保答案正确。它不仅能帮助工程师、研究人员和科学家进行编码，还能帮助所有人回答日常问题，帮助用户理解世界。同时马斯克表示，当下一个版本模型完全发布时将开源上一个版本。我们认为，全球大模型厂商的开源化趋势将进一步带动应用层的蓬勃发展，基于更强大模型的Agents有望快速问世。

语音交互即将上线，RL+多模态能力值得期待

多模态方面，Grok语音助手也将尽快推出，这将是一个能理解用户话语并直接生成音频的单一模型，也将融入RL的能力。目前，xAI团队正在开发对话记忆功能，未来用户可以选择拥有一个或多个Grok，实现个性化交互。我们认为，结合RL能力后模型的多模态能力也有望得到加强，建议持续关注多模态产品进展情况。

风险提示：AI技术迭代不及预期；AI商业化不及预期；本报告基于客观信息整理，不构成投资建议。

图表