专栏名称: 芋道源码

纯 Java 源码分享公众号，目前有「Dubbo」「SpringCloud」「Java 并发」「RocketMQ」「Sharding-JDBC」「MyCAT」「Elastic-Job」「SkyWalking」「Spring」等等

目前对Grok 3分析最为透彻的一篇文章

芋道源码 · 公众号 · Java · 2025-02-27 09:39

正文

👉 这是一个或许对你有用 的社群

🐱 一对一交流/面试小册/简历优化/求职解惑，欢迎加入「 芋道快速开发平台 」知识星球。下面是星球提供的部分资料：

《项目实战（视频）》：从书中学，往事上 “练 ”

《互联网高频面试题》：面朝简历学习，春暖花开

《架构 x 系统设计》：摧枯拉朽，掌控面试高频场景题

《精进 Java 学习指南》：系统学习，互联网主流技术栈

《必读 Java 源码专栏》：知其然，知其所以然

👉 这是一个或许对你有用的开源项目

国产 Star 破 10w+ 的开源项目，前端包括管理后台 + 微信小程序，后端支持单体和微服务架构。

功能涵盖 RBAC 权限、SaaS 多租户、数据权限、商城、支付、工作流、大屏报表、微信公众号、 ERP 、 CRM 、 AI 大模型 等等功能：

Boot 多模块架构：https://gitee.com/zhijiantianya/ruoyi-vue-pro

Cloud 微服务架构：https://gitee.com/zhijiantianya/yudao-cloud

视频教程：https://doc.iocoder.cn

【国内首批】支持 JDK 17/21 + SpringBoot 3.3、JDK 8/11 + Spring Boot 2.7 双版本

来源：weibo.com/1064649
941/5135484206713580

看到张俊林老师在微博的一篇文章，可能是目前我看到的对于 Grok 3 分析最为透彻的见解。

媒体风向变化太快，让人目不暇接。早上还在夸 DeepSeek 成本低，性价比高，预训练 Scaling Law 死了，不需要太多机器和 GPU 卡，性价比优先，英伟达休矣；中午 Grok 3 一出来，说是用了 10 万张英伟达 H100 卡，效果力压 OpenAI o3 mini 和 DeepSeek R1，就转向说 Scaling Law 还成立，还需要大量的卡，英伟达股价有救了，还是要大力出奇迹……

这两个观点明显对立，有一真必有一假，那事实的真相到底是啥呢？我们来推一推。

预训练阶段的 Scaling Law 是否仍然成立

预训练阶段的 Scaling Law 成立吗？当然是成立的，所谓 “Scaling Law 撞墙”，大家普遍遇到的问题是数据不够了，没有大量新数据，导致预训练阶段的 Scaling Law 走势趋缓，注意是趋缓但不是停顿，预训练阶段的 Scaling Law 并没到天花板。

按照 Chinchilla Scaling Law 推断，即使没有新数据，也并不意味着模型效果提不上去了，很简单，只要增加基座模型尺寸，效果仍然会提高，只是从付出的算力和获得的效果提升来说很不合算，性价比过低，这是为何大家转到 RL Scaling Law 和 Test Time Scaling Law 的原因，是因为付出同样的算力，在后面两个阶段大模型智商提升更明显，就是性价比高。

目前可以提高模型效果的 Scaling 方法，按照性价比由高到低排序的话: Test time Scaling Law> RL Scaling Law>预训练阶段 Scaling Law（数据不够了，只能推大模型尺寸），有性价比高的 Scaling，当然优先做这种，性价比低的 Scaling，只有在没有性价比更高的情况下才会采用。这跟购物一个道理，有性价比高的当然不会去买性价比低的商品。

如果哪天 RL Scaling Law 和 Test Time Scaling Law 到了天花板，又没有找到新的性价比更合算的 Scaling Law，也不是说模型效果就提不上去了，大家仍然可以回归预训练阶段的 Scaling Law，没有新数据也没关系，推大模型尺寸规模就可以，效果仍然会上升。但这基本是最后的选择，没办法的办法，只要有性价比高的方法就不会走这条路。

有人问了：那按照你的意思，囤那么多 GPU 算力，其实对训最好的模型也没啥用？要是按照上面的理论，那确实是没有太大必要，比如 DeepSeek 2000 卡也可以作出最好的模型不是。

但是卡多有个好处，就是能压缩实验新想法和训练大模型基座的时间周期。比如你总得探索一些不同的算法、参数或数据配比的模型进行各种实验，你有 10 个新想法，如果只有 2000 张卡，可能得跑 5 天才能得出结论，要是有几万张卡，可能 1 天就能得出结论，所以卡多对于探索效率是有极大帮助的。卡多创新多，这点肯定成立。

基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序，支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

项目地址：https://github.com/YunaiV/ruoyi-vue-pro

视频教程：https://doc.iocoder.cn/video/

Grok 3 基座模型（对标 DeepSeek V3，非 R1 这种逻辑推理模型）

为何 Grok 3 作为通用基座模型，它的评测指标只有数学、科学和代码数据集？没有通用能力比如最常用的 MMLU 指标的对比，这是不太规范的对比模式。推断可能 Grok 3 的通用能力相对 OpenAI 和 DeepSeek 的模型没有大幅提升，所以不拿出来比？

如果想要提升基座模型的数学、科学和代码能力，无论从方法还是从成本角度来讲，难度并不大，目前比较标准的做法是类似 DeepSeek V3从 DeepSeek R1蒸馏数学、代码等逻辑题的长 COT 数据，即深度思考过程数据。

就是说把深度思考长 COT 数据引入基座的 Post-Training 阶段、甚至前置到预训练阶段（所谓大模型 “左脚（DeepSeek 基座）踩右脚（DeepSeek R1）自我飞升” 的模式），这样就能大幅提升基座模型在数学和代码方面相关的能力，也就是 Grok 3 宣传具备的 “有思维链推理和自我纠错机制”，评测指标看着会比较好看，而且蒸馏的数据总量也不会太大（几百 B 级别应该够了），成本很低，对算力要求不高。

OpenAI 很快会发布的非逻辑推理模型 GPT 4.5 ，大概也应是类似的思路，从 o3 模型蒸馏 COT 数据，用深度思考数据来提升 GPT 4.5 基座模型的智商，大模型 “左脚踩右脚自我飞升” 大法，这会是之后基座模型提升能力的主要手段。

Grok 3 的算力消耗是 Grok 2 的 10 倍，如果遵照 Chinchilla Scaling Law，最佳做法是 Grok 3 的训练数据量比 Grok 2 增加 3 倍，模型大小同时比 Grok 2 增加 3 倍（但是目前的趋势是减小模型大小，增大数据量[就是说“小模型大数据”的模式]，尽管这样不满足训练最优原则，但因为模型尺寸小了，所以这种模型更适合在线推理服务，降低服务成本）。

如果像发布会宣称的，Grok 3 耗费算力是 Grok 2 的 10 倍消息为真的话，那有两种可能。

一种是数据量增长极大，这样只能是增加了大量多模态数据，比如数据量从 10 T 增长到 30 T（目前文本模型使用的数据量，最多到 18 T 到 20 T 之间，基本到顶，再多没有了，要大幅增加只能加多模态数据，但是增加多模态数据对提升大模型智商帮助不大，所以这个增量按理说不应该太大），如果这样推算，Grok3的模型规模增长 3 倍左右。

第二种可能是训练数据量比 20 T 增加的不多，如果这样可以推出 Grok 3 模型尺寸比 Grok 2 要大很多，至少 4 到 5 倍起步（若新增数据不多，那只能靠增加模型尺寸来消耗新增算力）。不论是哪种可能，Grok 3 的模型大小肯定比 Grok 2 大了很多，而 Grok 2 模型本身可能就不小（Grok 2 发布网页评测效果超过 Llama 3.1 405 B，所以无论数据还是模型大小，都不会太小，要是 Dense 模型， 70B 是最小的估计了），所以 Grok 3 的尺寸规模很可能不是一般的大（感觉在 200B 到 500B 之间）。

很明显，Grok 3 仍然在采取推大基座模型尺寸的 “传统” 做法，也就是上面 “Scaling Law” 部分分析的预训练阶段增大模型尺寸的方法来提升基座模型能力，上面分析过，这种做法是性价比很低的。比较时髦的做法是把训练重心放在 RL Scaling 方面，性价比会高太多。但是为啥他要做这种赔本买卖呢？在后面会给出一个可能的解释。

基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 实现的后台管理系统 + 用户小程序，支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

项目地址：https://github.com/YunaiV/yudao-cloud

视频教程：https://doc.iocoder.cn/video/

Grok 3 逻辑推理版本（深度思考版本，对标 DeepSeek R1）

Grok 3 的深度思考版本，不说体验，单从评测指标看，达到或者超过了 o3 mini，确实是目前效果最好的，或者说最好的之一没有什么问题。

说回上面提到的问题，为啥明知靠推大预训练阶段模型尺寸规模性价比低，Grok 3 还要用这种模式呢？很可能内在的原因在于（推断无证据）：Post-Training 阶段采取 RL Scaling，其效果可能跟基座模型的大小是有正相关关系的。

目前对Grok 3分析最为透彻的一篇文章

正文

预训练阶段的 Scaling Law 是否仍然成立

Grok 3 基座模型（对标 DeepSeek V3，非 R1 这种逻辑推理模型）

Grok 3 逻辑推理版本（深度思考版本，对标 DeepSeek R1）

请到「今天看啥」查看全文