专栏名称: 芋道源码
纯 Java 源码分享公众号,目前有「Dubbo」「SpringCloud」「Java 并发」「RocketMQ」「Sharding-JDBC」「MyCAT」「Elastic-Job」「SkyWalking」「Spring」等等
目录
相关文章推荐
Java编程精选  ·  巧用 SpringEvent 解决 ... ·  2 天前  
芋道源码  ·  从Alibaba-Cola到DDD,一线研发 ... ·  2 天前  
芋道源码  ·  DeepSeek ... ·  3 天前  
芋道源码  ·  接入 DeepSeek,文心智能体启动!!! ·  3 天前  
51好读  ›  专栏  ›  芋道源码

目前对Grok 3分析最为透彻的一篇文章

芋道源码  · 公众号  · Java  · 2025-02-27 09:39

正文

👉 这是一个或许对你有用 的社群

🐱 一对一交流/面试小册/简历优化/求职解惑,欢迎加入 芋道快速开发平台 知识星球。 下面是星球提供的部分资料:

👉 这是一个或许对你有用的开源项目

国产 Star 破 10w+ 的开源项目,前端包括管理后台 + 微信小程序,后端支持单体和微服务架构。

功能涵盖 RBAC 权限、SaaS 多租户、数据权限、 商城 、支付、工作流、大屏报表、微信公众号、 ERP CRM AI 大模型 等等功能:

  • Boot 多模块架构:https://gitee.com/zhijiantianya/ruoyi-vue-pro
  • Cloud 微服务架构:https://gitee.com/zhijiantianya/yudao-cloud
  • 视频教程:https://doc.iocoder.cn
【国内首批】支持 JDK 17/21 + SpringBoot 3.3、JDK 8/11 + Spring Boot 2.7 双版本

来源:weibo.com/1064649
941/5135484206713580


看到张俊林老师在微博的一篇文章,可能是目前我看到的对于 Grok 3 分析最为透彻的见解。

媒体风向变化太快,让人目不暇接。早上还在夸 DeepSeek 成本低,性价比高,预训练 Scaling Law 死了,不需要太多机器和 GPU 卡,性价比优先,英伟达休矣;中午 Grok 3 一出来,说是用了 10 万张英伟达 H100 卡,效果力压 OpenAI o3 mini 和 DeepSeek R1,就转向说 Scaling Law 还成立,还需要大量的卡,英伟达股价有救了,还是要大力出奇迹……

这两个观点明显对立,有一真必有一假,那事实的真相到底是啥呢?我们来推一推。

预训练阶段的 Scaling Law 是否仍然成立

预训练阶段的 Scaling Law 成立吗?当然是成立的,所谓 “Scaling Law 撞墙”,大家普遍遇到的问题是数据不够了,没有大量新数据,导致预训练阶段的 Scaling Law 走势趋缓,注意是趋缓但不是停顿,预训练阶段的 Scaling Law 并没到天花板。

按照 Chinchilla Scaling Law 推断,即使没有新数据,也并不意味着模型效果提不上去了,很简单,只要增加基座模型尺寸,效果仍然会提高,只是从付出的算力和获得的效果提升来说很不合算,性价比过低,这是为何大家转到 RL Scaling Law 和 Test Time Scaling Law 的原因,是因为付出同样的算力,在后面两个阶段大模型智商提升更明显,就是性价比高。

目前可以提高模型效果的 Scaling 方法,按照性价比由高到低排序的话: Test time Scaling Law> RL Scaling Law>预训练阶段 Scaling Law(数据不够了,只能推大模型尺寸),有性价比高的 Scaling,当然优先做这种,性价比低的 Scaling,只有在没有性价比更高的情况下才会采用。这跟购物一个道理,有性价比高的当然不会去买性价比低的商品。

如果哪天 RL Scaling Law 和 Test Time Scaling Law 到了天花板,又没有找到新的性价比更合算的 Scaling Law,也不是说模型效果就提不上去了,大家仍然可以回归预训练阶段的 Scaling Law,没有新数据也没关系,推大模型尺寸规模就可以,效果仍然会上升。但这基本是最后的选择,没办法的办法,只要有性价比高的方法就不会走这条路。

有人问了:那按照你的意思,囤那么多 GPU 算力,其实对训最好的模型也没啥用?要是按照上面的理论,那确实是没有太大必要,比如 DeepSeek 2000 卡也可以作出最好的模型不是。

但是卡多有个好处,就是能压缩实验新想法和训练大模型基座的时间周期。比如你总得探索一些不同的算法、参数或数据配比的模型进行各种实验,你有 10 个新想法,如果只有 2000 张卡,可能得跑 5 天才能得出结论,要是有几万张卡,可能 1 天就能得出结论,所以卡多对于探索效率是有极大帮助的。卡多创新多,这点肯定成立。

基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

  • 项目地址:https://github.com/YunaiV/ruoyi-vue-pro
  • 视频教程:https://doc.iocoder.cn/video/

Grok 3 基座模型(对标 DeepSeek V3,非 R1 这种逻辑推理模型)

为何 Grok 3 作为通用基座模型,它的评测指标只有数学、科学和代码数据集?没有通用能力比如最常用的 MMLU 指标的对比,这是不太规范的对比模式。推断可能 Grok 3 的通用能力相对 OpenAI 和 DeepSeek 的模型没有大幅提升,所以不拿出来比?

如果想要提升基座模型的数学、科学和代码能力,无论从方法还是从成本角度来讲,难度并不大,目前比较标准的做法是类似 DeepSeek V3从 DeepSeek R1蒸馏数学、代码等逻辑题的长 COT 数据,即深度思考过程数据。

就是说把深度思考长 COT 数据引入基座的 Post-Training 阶段、甚至前置到预训练阶段(所谓大模型 “左脚(DeepSeek 基座)踩右脚(DeepSeek R1)自我飞升” 的模式),这样就能大幅提升基座模型在数学和代码方面相关的能力,也就是 Grok 3 宣传具备的 “有思维链推理和自我纠错机制”,评测指标看着会比较好看,而且蒸馏的数据总量也不会太大(几百 B 级别应该够了),成本很低,对算力要求不高。

OpenAI 很快会发布的非逻辑推理模型 GPT 4.5 ,大概也应是类似的思路,从 o3 模型蒸馏 COT 数据,用深度思考数据来提升 GPT 4.5 基座模型的智商,大模型 “左脚踩右脚自我飞升” 大法,这会是之后基座模型提升能力的主要手段。

Grok 3 的算力消耗是 Grok 2 的 10 倍,如果遵照 Chinchilla Scaling Law,最佳做法是 Grok 3 的训练数据量比 Grok 2 增加 3 倍,模型大小同时比 Grok 2 增加 3 倍(但是目前的趋势是减小模型大小,增大数据量[就是说“小模型大数据”的模式],尽管这样不满足训练最优原则,但因为模型尺寸小了,所以这种模型更适合在线推理服务,降低服务成本)。

如果像发布会宣称的,Grok 3 耗费算力是 Grok 2 的 10 倍消息为真的话,那有两种可能。

一种是数据量增长极大,这样只能是增加了大量多模态数据,比如数据量从 10 T 增长到 30 T(目前文本模型使用的数据量,最多到 18 T 到 20 T 之间,基本到顶,再多没有了,要大幅增加只能加多模态数据,但是增加多模态数据对提升大模型智商帮助不大,所以这个增量按理说不应该太大),如果这样推算,Grok3的模型规模增长 3 倍左右。

第二种可能是训练数据量比 20 T 增加的不多,如果这样可以推出 Grok 3 模型尺寸比 Grok 2 要大很多,至少 4 到 5 倍起步(若新增数据不多,那只能靠增加模型尺寸来消耗新增算力)。不论是哪种可能,Grok 3 的模型大小肯定比 Grok 2 大了很多,而 Grok 2 模型本身可能就不小(Grok 2 发布网页评测效果超过 Llama 3.1 405 B,所以无论数据还是模型大小,都不会太小,要是 Dense 模型, 70B 是最小的估计了),所以 Grok 3 的尺寸规模很可能不是一般的大(感觉在 200B 到 500B 之间)。

很明显,Grok 3 仍然在采取推大基座模型尺寸的 “传统” 做法,也就是上面 “Scaling Law” 部分分析的预训练阶段增大模型尺寸的方法来提升基座模型能力,上面分析过,这种做法是性价比很低的。比较时髦的做法是把训练重心放在 RL Scaling 方面,性价比会高太多。但是为啥他要做这种赔本买卖呢?在后面会给出一个可能的解释。

基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

  • 项目地址:https://github.com/YunaiV/yudao-cloud
  • 视频教程:https://doc.iocoder.cn/video/

Grok 3 逻辑推理版本(深度思考版本,对标 DeepSeek R1)

Grok 3 的深度思考版本,不说体验,单从评测指标看,达到或者超过了 o3 mini,确实是目前效果最好的,或者说最好的之一没有什么问题。

说回上面提到的问题,为啥明知靠推大预训练阶段模型尺寸规模性价比低,Grok 3 还要用这种模式呢?很可能内在的原因在于(推断无证据):Post-Training 阶段采取 RL Scaling,其效果可能跟基座模型的大小是有正相关关系的。







请到「今天看啥」查看全文