专栏名称: 共识粉碎机
寻找与共识的不同
目录
相关文章推荐
CEO管理秘籍  ·  DeepSeek统计最暴利的10个行业1:殡 ... ·  15 小时前  
CEO管理秘籍  ·  DeepSeek统计最暴利的10个行业1:殡 ... ·  15 小时前  
金融街老裘  ·  累了,困了 ·  2 天前  
51好读  ›  专栏  ›  共识粉碎机

微软泄露OpenAI参数大小,我们觉得Scaling Law也出现了新变化

共识粉碎机  · 公众号  ·  · 2025-01-02 11:20

正文

卖不完了!!!快帮我们一下!


在2025年的第一天,来自微软的一篇关于检测和纠正临床笔记中医疗错误的测试基准MEDEC的研究,引发了非常大的关注,因 为微软似乎又一次泄露了主流的大模型到底参数是多大。

去年也有一次类似的泄密,泄露了GPT3.5-turbo实际上只有20Bn的参数规模。


按照这篇文章,大概几个主流的参数模型大小如下

  • Claude 3.5 Sonnet(2024-10-22),~175B

  • ChatGPT,~175B(其实就是最早的GPT3.5)

  • GPT-4,约1.76T

  • GPT-4o,~200B

  • GPT-4o-mini(gpt-4o-2024-05-13)只有8B

  • 最新的o1-mini(o1-mini-2024-09-12)仅100B

  • o1-preview(o1-preview-2024-09-12)~300B


当然这些参数没有得到官方的认证,有些数据也看起来比较扯,不过笔者觉得大概的趋势还是可以参考的。 最早的GPT4其实是靠暴力加大参数的方式做出来的,而4o就在4的基础上大大减少了参数量,也做的更加的稀疏(expert可能有几百甚至上千)。

4o mini参数量可能不一定是8Bn这么小,但也不会超过GPT3.5 Turbo的20Bn。


结合之前OpenAI和头部公司pretrain下一代大模型撞墙的新闻,看起来降本可能是2025年更加核心的一条路径了。

接下来Scaling Law会怎么走呢?尤其是会怎么影响算力,nvidia, ASIC, networking等等呢?o3发布之后,有很多观点认为o3可以到达AGI,事实上真的是这样吗?

结合OpenAI最近的一系列动作,和连续的12场发布会,其实再下面到底怎么做,OpenAI的思路已经比较清楚了。


熟悉我们的读者和客户都了解,我们在2024年一直都保持对Scaling Law的非常乐观态度。

在7月份,我们就在市场上最先制作了草莓与强化学习的专题报告 ,并和大家提到PostTrain的算力会超过PreTrain,是支撑算力的第二曲线。

哪怕到小作文纷飞,都在议论“Scaling失效”的8月份,我们还专门开了一次Scaling Law讨论会 (具体纪要可以联系久谦销售) ,和大家拆解当时传的小作文错在哪,为什么PostTrain的算力需求已经超过了PreTrain,而且有非常大的几率反哺PreTrain,重心和话语权已经全部切去PostTrain。

但到了今天,又发生了很多明显的变化。


我们2025开年的第一次大路演就会着重讨论这些问题。


进入2025年,投研的方式也会产生很大的变化。

如果说2024年,我们的重点主要都在攻克M7和大公司,帮助大家理解大公司的核心Driver、跟到核心指标,讲明白技术迭代路径,拆分产品和增长逻辑,理解估值定价。

那进入2025年,我们会更加采用灵活的方式,用短平快的研究模式,帮大家覆盖更多的AI Agent应用公司,让大家能更多的参与讨论。

这也意味着过去单次报告售卖的方式,可能需要转向订阅制。在单次报告售卖模式中,我们很难以经济的方式制作应用公司报告,不确定是否有足够受众。但在订阅模式后,可以更加聚焦各类大小的应用公司,覆盖量与内容量也可以远远超过去年的模式,并且可以根据大家提出的需求进行研究重心的调整。


欢迎与下文的久谦销售同事联系,咨询新一年的合作方式。




欢迎加入共识粉碎机活动群,我们会定期发布内容和活动









请到「今天看啥」查看全文