在2025年的第一天,来自微软的一篇关于检测和纠正临床笔记中医疗错误的测试基准MEDEC的研究,引发了非常大的关注,因
为微软似乎又一次泄露了主流的大模型到底参数是多大。
去年也有一次类似的泄密,泄露了GPT3.5-turbo实际上只有20Bn的参数规模。
按照这篇文章,大概几个主流的参数模型大小如下
-
Claude 3.5 Sonnet(2024-10-22),~175B
-
ChatGPT,~175B(其实就是最早的GPT3.5)
-
GPT-4,约1.76T
-
GPT-4o,~200B
-
GPT-4o-mini(gpt-4o-2024-05-13)只有8B
-
最新的o1-mini(o1-mini-2024-09-12)仅100B
-
o1-preview(o1-preview-2024-09-12)~300B
当然这些参数没有得到官方的认证,有些数据也看起来比较扯,不过笔者觉得大概的趋势还是可以参考的。
最早的GPT4其实是靠暴力加大参数的方式做出来的,而4o就在4的基础上大大减少了参数量,也做的更加的稀疏(expert可能有几百甚至上千)。
4o mini参数量可能不一定是8Bn这么小,但也不会超过GPT3.5 Turbo的20Bn。
结合之前OpenAI和头部公司pretrain下一代大模型撞墙的新闻,看起来降本可能是2025年更加核心的一条路径了。
接下来Scaling Law会怎么走呢?尤其是会怎么影响算力,nvidia, ASIC, networking等等呢?o3发布之后,有很多观点认为o3可以到达AGI,事实上真的是这样吗?
结合OpenAI最近的一系列动作,和连续的12场发布会,其实再下面到底怎么做,OpenAI的思路已经比较清楚了。
熟悉我们的读者和客户都了解,我们在2024年一直都保持对Scaling Law的非常乐观态度。
在7月份,我们就在市场上最先制作了草莓与强化学习的专题报告
,并和大家提到PostTrain的算力会超过PreTrain,是支撑算力的第二曲线。
哪怕到小作文纷飞,都在议论“Scaling失效”的8月份,我们还专门开了一次Scaling Law讨论会
(具体纪要可以联系久谦销售)
,和大家拆解当时传的小作文错在哪,为什么PostTrain的算力需求已经超过了PreTrain,而且有非常大的几率反哺PreTrain,重心和话语权已经全部切去PostTrain。
但到了今天,又发生了很多明显的变化。
我们2025开年的第一次大路演就会着重讨论这些问题。
进入2025年,投研的方式也会产生很大的变化。
如果说2024年,我们的重点主要都在攻克M7和大公司,帮助大家理解大公司的核心Driver、跟到核心指标,讲明白技术迭代路径,拆分产品和增长逻辑,理解估值定价。
那进入2025年,我们会更加采用灵活的方式,用短平快的研究模式,帮大家覆盖更多的AI Agent应用公司,让大家能更多的参与讨论。
这也意味着过去单次报告售卖的方式,可能需要转向订阅制。在单次报告售卖模式中,我们很难以经济的方式制作应用公司报告,不确定是否有足够受众。但在订阅模式后,可以更加聚焦各类大小的应用公司,覆盖量与内容量也可以远远超过去年的模式,并且可以根据大家提出的需求进行研究重心的调整。
欢迎与下文的久谦销售同事联系,咨询新一年的合作方式。
欢迎加入共识粉碎机活动群,我们会定期发布内容和活动