专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
EETOP  ·  这篇博文让英伟达“血流成河”! ·  2 天前  
EETOP  ·  事关DeepSeek与GPU管制!懂王首会黄 ... ·  3 天前  
EETOP  ·  意法半导体计划裁员3000人! ·  4 天前  
好机友  ·  iPhone16销量大跌,但苹果好像一点都不急 ·  5 天前  
哎咆科技  ·  iPhone 壁纸 | 卡通梵高系列高清壁纸 ·  5 天前  
51好读  ›  专栏  ›  AINLP

LLM 预训练到头了吗?

AINLP  · 公众号  ·  · 2025-01-03 18:21

正文

今天给大家带来的是好友@Binyuan的一篇想法,主要是对Ilya的“pre-training as we know it will end” 观点的看法。

正文如下:

最近,Ilya 在 NeurIPS 的演讲中提到了一个观点:“pre-training as we know it will end” 引发了热烈的讨论。我非常认同 agent、synthetic data 和 inference-time computing 是未来超级智能的突破点,但我认为开放社区仍然需要在 pre-training 坚持一段时间。

  • 数据扩展:训练数据要真正做到 “覆盖整个互联网” 并不容易。比如,Qwen2.5 在预训练的时候使用了 18T tokens,但这些数据仍然不足以覆盖所有领域的知识,尤其是一些长尾领域的内容,也无法覆盖持续不断更新的数据。可以预见,开源模型预训练必须依赖更多的数据。此外,数据清洗仍然是一个重要环节。目前社区尚未完全掌握所有数据清洗的最佳技巧,也无法以低成本获取高质量数据。因此,可扩展的数据工程还是最高优先级的任务。

  • 模型扩展:在扩大模型规模时,也面临着训练技术上的限制。例如,Llama 405B 的性能其实不及预期,这说明只有少数机构掌握了超大模型训练的方法,而这些技术尚未完全公开。需要更加注重创新的训练方法和更稳定的模型设计,以降低超大规模模型的训练风险,让更多研究者能够参与其中。另外,暂时还没办法确定足以实现预期结果的最佳模型大小。

  • 还有一个必须承认的事实,无论是合成数据还是 posttraining 的研究都会受限于 base model 的质量。我猜测 o1 的成功是预训练和后训练两个阶段共同努力的结果。在社区能够拥有像 OpenAI 一样强大的预训练模型之前,我们不能轻易放弃对 pretraining 的投入。

由于我们无法获得 Ilya 所看到的最强预训练模型的 token 数量、参数规模以及实际性能,这种信息的不透明性让我们很难准确判断预训练是否已经达到极限。

而开放社区需要高质量的 Base 模型来推动后续的研究。如果预训练停止,社区可能会在 posttraining 的研究上快速遇到瓶颈。

所以,我们和 ilya 玩的是两个游戏:

Pretraining as Ilya knows it will end, but not for us.

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

关于AINLP





请到「今天看啥」查看全文