微软泄露OpenAI参数大小，我们觉得Scaling Law也出现了新变化

共识粉碎机 · 公众号 · · 2025-01-02 11:20

正文

卖不完了！！！快帮我们一下！

在2025年的第一天，来自微软的一篇关于检测和纠正临床笔记中医疗错误的测试基准MEDEC的研究，引发了非常大的关注，因 为微软似乎又一次泄露了主流的大模型到底参数是多大。

去年也有一次类似的泄密，泄露了GPT3.5-turbo实际上只有20Bn的参数规模。

按照这篇文章，大概几个主流的参数模型大小如下

Claude 3.5 Sonnet（2024-10-22），~175B
ChatGPT，~175B（其实就是最早的GPT3.5）
GPT-4，约1.76T
GPT-4o，~200B
GPT-4o-mini（gpt-4o-2024-05-13）只有8B
最新的o1-mini（o1-mini-2024-09-12）仅100B
o1-preview（o1-preview-2024-09-12）~300B

当然这些参数没有得到官方的认证，有些数据也看起来比较扯，不过笔者觉得大概的趋势还是可以参考的。 最早的GPT4其实是靠暴力加大参数的方式做出来的，而4o就在4的基础上大大减少了参数量，也做的更加的稀疏（expert可能有几百甚至上千）。

4o mini参数量可能不一定是8Bn这么小，但也不会超过GPT3.5 Turbo的20Bn。

结合之前OpenAI和头部公司pretrain下一代大模型撞墙的新闻，看起来降本可能是2025年更加核心的一条路径了。

接下来Scaling Law会怎么走呢？尤其是会怎么影响算力，nvidia, ASIC， networking等等呢？o3发布之后，有很多观点认为o3可以到达AGI，事实上真的是这样吗？

结合OpenAI最近的一系列动作，和连续的12场发布会，其实再下面到底怎么做，OpenAI的思路已经比较清楚了。

熟悉我们的读者和客户都了解，我们在2024年一直都保持对Scaling Law的非常乐观态度。

在7月份，我们就在市场上最先制作了草莓与强化学习的专题报告 ，并和大家提到PostTrain的算力会超过PreTrain，是支撑算力的第二曲线。

哪怕到小作文纷飞，都在议论“Scaling失效”的8月份，我们还专门开了一次Scaling Law讨论会 （具体纪要可以联系久谦销售） ，和大家拆解当时传的小作文错在哪，为什么PostTrain的算力需求已经超过了PreTrain，而且有非常大的几率反哺PreTrain，重心和话语权已经全部切去PostTrain。

但到了今天，又发生了很多明显的变化。

我们2025开年的第一次大路演就会着重讨论这些问题。

进入2025年，投研的方式也会产生很大的变化。

如果说2024年，我们的重点主要都在攻克M7和大公司，帮助大家理解大公司的核心Driver、跟到核心指标，讲明白技术迭代路径，拆分产品和增长逻辑，理解估值定价。

那进入2025年，我们会更加采用灵活的方式，用短平快的研究模式，帮大家覆盖更多的AI Agent应用公司，让大家能更多的参与讨论。

这也意味着过去单次报告售卖的方式，可能需要转向订阅制。在单次报告售卖模式中，我们很难以经济的方式制作应用公司报告，不确定是否有足够受众。但在订阅模式后，可以更加聚焦各类大小的应用公司，覆盖量与内容量也可以远远超过去年的模式，并且可以根据大家提出的需求进行研究重心的调整。

欢迎与下文的久谦销售同事联系，咨询新一年的合作方式。

欢迎加入共识粉碎机活动群，我们会定期发布内容和活动

微软泄露OpenAI参数大小，我们觉得Scaling Law也出现了新变化

正文

请到「今天看啥」查看全文