李开复: GPT-5训练不顺利,所以发了o1,OpenAI内部有很多好东西还没拿出来//@i陆三金:用 xAI 员工 Hieu Pham 的话说「OpenAI 或许有很多问题,但他们并不存在所谓的技能问题」。
Sam Altman 回应了彭博社的报道《OpenAI、Google 和 Anthropic 在构建更先进的 AI 方面遇到挑战》网页链接 说“There is no wall”,意思是还没撞墙呢!
针对这个问题,X 上的网友 fin (x.com/fi56622380) 作为资深半导体从业者说的很有道理:
> 每一个技术路线还在早期发展时,基本上就是按着scale up的路径。当scale up获得的边际收益太小的时候,就会开始找组合路径,依托下一个S型曲线scale快速发展期维持行业繁荣
>
> 体现为初期是大力出奇迹的阶段,然后是组合出奇迹的阶段(RL/MCTS),然后是更大尺度上的大力出奇迹scale up阶段(o1),循环往复
大模型Scaling law撞墙,基本从年初PHD们吐槽到了现在大佬们公开谈论
作为半导体从业者,这集看了太多遍不能更熟悉了
芯片行业scaling law统称摩尔定律,各路媒体在十五年前就开始悲观的展望摩尔定律消亡
有一个反直觉,或者说主流媒体这几年并不报道的是,制程摩尔定律,竟然比二十年前更快了
摩尔定律的本质,是很多个技术曲线的scaling law前赴后继的组成了一道一道S型技术曲线,累积叠加造成的幻象:芯片每单位面积能容纳的gate数量指数型增长
实际上现在的所谓4nm/N3E制程节点早就成了数字游戏,电路gate的实际尺寸仍然是20nm,只不过gate密度是等效3nm
这就和AI目前的情况一样,LLM的pretraining阶段的大力出奇迹,只是目前阶段投入回报比极佳(最佳)scale up的路线
每个技术曲线的scaling law都是有寿命的,不存在一招鲜吃遍天的情况
AI的LLM的pretraining的撞墙,在AI领域发展长河上,和芯片制程里的众多革命性S型技术曲线一样(比如double patterning,EUV),是一项亮眼的,值得反复在教课书上称颂的里程碑式技术曲线
正如摩尔定律早已经不是侠义的摩尔定律,而是广义的摩尔定律一样
比如在计算机架构上,Domain specific architecture能玩的花样也越来越多,俨然成了新一道S曲线的快速增长期
如果看前几年的hotchip论文集,很明显,摩尔定律不仅没有停滞,反而在加速,仿佛回到了十几二十年前架构的百家争鸣的新黄金时代
看多了半导体的摩尔定律历史,再看LLM pretraining阶段scaling law撞墙,在更大尺度上的AI发展看起来,不会是什么阻碍
AI的发展,仍然会维持每十年软硬件加速六个数量级的指数发展作为背景板,会有各种广义的加速路线来维持这个指数型发展
中间没有S型技术曲线的真空期,确实会延缓一些速度,比如2012~2017年的摩尔定律。但即便如此,前一代的技术红利商业化还能吃很久很久,即便是supervised learning,现在仍然是在已经很惊人的体量上保持着夸张的增速呢
“generative AI的增长速度确实是很亮眼,但即便是传统的supervised learning,还有很多很多年的技术红利可以吃,惊人体量下的增长速度仍然堪称massive”
原推:x.com/fi56622380/status/1856955193113678010
🧵 网页链接
针对这个问题,X 上的网友 fin (x.com/fi56622380) 作为资深半导体从业者说的很有道理:
> 每一个技术路线还在早期发展时,基本上就是按着scale up的路径。当scale up获得的边际收益太小的时候,就会开始找组合路径,依托下一个S型曲线scale快速发展期维持行业繁荣
>
> 体现为初期是大力出奇迹的阶段,然后是组合出奇迹的阶段(RL/MCTS),然后是更大尺度上的大力出奇迹scale up阶段(o1),循环往复
大模型Scaling law撞墙,基本从年初PHD们吐槽到了现在大佬们公开谈论
作为半导体从业者,这集看了太多遍不能更熟悉了
芯片行业scaling law统称摩尔定律,各路媒体在十五年前就开始悲观的展望摩尔定律消亡
有一个反直觉,或者说主流媒体这几年并不报道的是,制程摩尔定律,竟然比二十年前更快了
摩尔定律的本质,是很多个技术曲线的scaling law前赴后继的组成了一道一道S型技术曲线,累积叠加造成的幻象:芯片每单位面积能容纳的gate数量指数型增长
实际上现在的所谓4nm/N3E制程节点早就成了数字游戏,电路gate的实际尺寸仍然是20nm,只不过gate密度是等效3nm
这就和AI目前的情况一样,LLM的pretraining阶段的大力出奇迹,只是目前阶段投入回报比极佳(最佳)scale up的路线
每个技术曲线的scaling law都是有寿命的,不存在一招鲜吃遍天的情况
AI的LLM的pretraining的撞墙,在AI领域发展长河上,和芯片制程里的众多革命性S型技术曲线一样(比如double patterning,EUV),是一项亮眼的,值得反复在教课书上称颂的里程碑式技术曲线
正如摩尔定律早已经不是侠义的摩尔定律,而是广义的摩尔定律一样
比如在计算机架构上,Domain specific architecture能玩的花样也越来越多,俨然成了新一道S曲线的快速增长期
如果看前几年的hotchip论文集,很明显,摩尔定律不仅没有停滞,反而在加速,仿佛回到了十几二十年前架构的百家争鸣的新黄金时代
看多了半导体的摩尔定律历史,再看LLM pretraining阶段scaling law撞墙,在更大尺度上的AI发展看起来,不会是什么阻碍
AI的发展,仍然会维持每十年软硬件加速六个数量级的指数发展作为背景板,会有各种广义的加速路线来维持这个指数型发展
中间没有S型技术曲线的真空期,确实会延缓一些速度,比如2012~2017年的摩尔定律。但即便如此,前一代的技术红利商业化还能吃很久很久,即便是supervised learning,现在仍然是在已经很惊人的体量上保持着夸张的增速呢
“generative AI的增长速度确实是很亮眼,但即便是传统的supervised learning,还有很多很多年的技术红利可以吃,惊人体量下的增长速度仍然堪称massive”
原推:x.com/fi56622380/status/1856955193113678010
🧵 网页链接