专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
爱可可-爱生活  ·  [LG]《Non-Adversarial ... ·  3 天前  
爱可可-爱生活  ·  [IR]《Language-Model ... ·  5 天前  
机器之心  ·  谷歌2024博士奖学金公布,KAN作者刘子鸣 ... ·  1 周前  
51好读  ›  专栏  ›  宝玉xp

李开复: GPT-5训练不顺利,所以发了o1,OpenAI内部有-20241114162323

宝玉xp  · 微博  · AI  · 2024-11-14 16:23

正文

2024-11-14 16:23

李开复: GPT-5训练不顺利,所以发了o1,OpenAI内部有很多好东西还没拿出来//@i陆三金:用 xAI 员工 Hieu Pham 的话说「OpenAI 或许有很多问题,但他们并不存在所谓的技能问题」。
Sam Altman 回应了彭博社的报道《OpenAI、Google 和 Anthropic 在构建更先进的 AI 方面遇到挑战》网页链接 说“There is no wall”,意思是还没撞墙呢!

针对这个问题,X 上的网友 fin (x.com/fi56622380) 作为资深半导体从业者说的很有道理:

> 每一个技术路线还在早期发展时,基本上就是按着scale up的路径。当scale up获得的边际收益太小的时候,就会开始找组合路径,依托下一个S型曲线scale快速发展期维持行业繁荣
>
> 体现为初期是大力出奇迹的阶段,然后是组合出奇迹的阶段(RL/MCTS),然后是更大尺度上的大力出奇迹scale up阶段(o1),循环往复

大模型Scaling law撞墙,基本从年初PHD们吐槽到了现在大佬们公开谈论

作为半导体从业者,这集看了太多遍不能更熟悉了

芯片行业scaling law统称摩尔定律,各路媒体在十五年前就开始悲观的展望摩尔定律消亡

有一个反直觉,或者说主流媒体这几年并不报道的是,制程摩尔定律,竟然比二十年前更快了

摩尔定律的本质,是很多个技术曲线的scaling law前赴后继的组成了一道一道S型技术曲线,累积叠加造成的幻象:芯片每单位面积能容纳的gate数量指数型增长

实际上现在的所谓4nm/N3E制程节点早就成了数字游戏,电路gate的实际尺寸仍然是20nm,只不过gate密度是等效3nm

这就和AI目前的情况一样,LLM的pretraining阶段的大力出奇迹,只是目前阶段投入回报比极佳(最佳)scale up的路线

每个技术曲线的scaling law都是有寿命的,不存在一招鲜吃遍天的情况

AI的LLM的pretraining的撞墙,在AI领域发展长河上,和芯片制程里的众多革命性S型技术曲线一样(比如double patterning,EUV),是一项亮眼的,值得反复在教课书上称颂的里程碑式技术曲线

正如摩尔定律早已经不是侠义的摩尔定律,而是广义的摩尔定律一样

比如在计算机架构上,Domain specific architecture能玩的花样也越来越多,俨然成了新一道S曲线的快速增长期

如果看前几年的hotchip论文集,很明显,摩尔定律不仅没有停滞,反而在加速,仿佛回到了十几二十年前架构的百家争鸣的新黄金时代

看多了半导体的摩尔定律历史,再看LLM pretraining阶段scaling law撞墙,在更大尺度上的AI发展看起来,不会是什么阻碍

AI的发展,仍然会维持每十年软硬件加速六个数量级的指数发展作为背景板,会有各种广义的加速路线来维持这个指数型发展

中间没有S型技术曲线的真空期,确实会延缓一些速度,比如2012~2017年的摩尔定律。但即便如此,前一代的技术红利商业化还能吃很久很久,即便是supervised learning,现在仍然是在已经很惊人的体量上保持着夸张的增速呢

“generative AI的增长速度确实是很亮眼,但即便是传统的supervised learning,还有很多很多年的技术红利可以吃,惊人体量下的增长速度仍然堪称massive”

原推:x.com/fi56622380/status/1856955193113678010
🧵 网页链接