专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
51好读  ›  专栏  ›  Dots机构投资者社区

Ilya错了,预训练没结束!LeCun等反击,「小模型时代」让奥特曼预言成真

Dots机构投资者社区  · 公众号  ·  · 2024-12-17 08:15

正文

本文转自微信公众号“新智元”,作者:新智元。




编辑:编辑部 HZj
【导读】 Ilya「预训练结束了」言论一出,圈内哗然。谷歌大佬Logan Klipatrick和LeCun站出来反对说:预训练还没结束!Scaling Law真的崩了吗?Epoch AI发布报告称,我们已经进入「小模型」周期,但下一代依然会更大。

最近,Ilya在NeurIPS 2024中宣布:预训练结束了!瞬间一石激起千层浪。
在他看来,数据如同化石燃料般难以再生,因此训练模型需要的海量数据即将枯竭。
作为前OpenAI首席科学家,Ilya的这番话,有可能影响之后数十年的AI发展方向。
不过,预训练真的结束了吗?
最近,几位圈内大佬,就公开站出来质疑和反对Ilya了。
谷歌大佬Logan Kilpatrick是这样内涵Ilya的:认为预训练结束,恐怕是因为你缺乏想象力。
前Meta具身智能团队的高级总监Dhruv Batra也站出来共同表示:Ilya错了!
在他看来,人类的数据还没有用完。
我们只是用完了人类书写的文本而已,但我们拥有的视频数量,依然远超我们的处理能力,目前只是尚未解决视觉领域的预训练问题罢了。
的确,要知道,网络上的文本公共数据,毕竟只是冰山一角而已。
我们除了文本,还能对音频、视频、图像进行预训练,甚至可以把视觉、嗅觉、触觉、平衡和传感器这些人类进化出来的功能赋予机器。
而如果模型真的可以学习的话,那数据或许确实是无所不在。
左右滑动查看
有人则充分放分想象:如果预训练能和生物相连,那它的确永远不会结束。

Scaling Law和预训练到底有没有撞墙?

种种事件表明,我们已经站在了一个发展路线的分水岭。
Ilya、LeCun甚至奥特曼,都已经感觉到:目前的发展路线不能再延续下去了,我们亟需探索新的出路。
早期,Ilya曾是暴力Scaling的早期倡导者之一,认为通过增加数据和算力来「scale up」,能显著改善模型性能。
但现在,Ilya已经承认自己曾经的想法错了,并透露SSI正在研究一种全新的替代方法,来扩展预训练。
相较之下,外媒SemiAnalysis则在一篇关于o1的深度报道中指出——scale的维度远不止预训练,Scaling Law仍将继续下去。
最近,Epoch AI研究员的一篇长文,更是直观地展示了这个「矛盾」的现象。
从2017年Transformer架构诞生到GPT-4发布,SOTA模型的规模一直在变大,但增幅在变小。
  • 从GPT-1到GPT-3,用了2年时间,模型参数量从1.17亿增加到1750亿,增加了1000倍

  • 从GPT-3到GPT-4,用了2年9个月,模型参数量从1750亿增加到1.8万亿,增加了10倍
而到了2023年,这一趋势直接发生了逆转。
据估计,当前SOTA模型的参数可能要比GPT-4的1.8万亿小一个数量级!
  • GPT-4o大约为2000亿参数
  • Claude 3.5 Sonnet约为4000亿参数

但有趣的是,下一代模型的规模,可能又会重新超过GPT-4。

当今SOTA模型最大只有约4000亿参数


尽管许多实验室没有公开模型架构,Epoch AI的研究员依然从蛛丝马迹中发现了线索。
首先是开源模型的证据。根据Artificial Analysis的模型质量指数,当前最佳的开源模型是Mistral Large 2和Llama 3.3,分别拥有1230亿和700亿参数。
这些稠密模型,架构与GPT-3相似,但参数更少。它们总体的基准表现超过了GPT-4和Claude 3 Opus,且由于参数更少,它们的推理成本和速度也更优。






请到「今天看啥」查看全文


推荐文章
金融先生MrFinance  ·  关于投行及其它金融职业介绍普及版
8 年前
金融先生MrFinance  ·  关于投行及其它金融职业介绍普及版
8 年前
电商解析  ·  2017小卖家的突围方向
8 年前