专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

知乎大佬解析Ilya最新言论：pre-train丸啦，搞agentic和reasoning吧

深度学习自然语言处理 · 公众号 · · 2024-12-15 11:44

正文

Author: 曹宇

Link: https://zhuanlan.zhihu.com/p/12588939986

Ilya 在 NeurIPS 2024 上演了一个名场面：在回望了自己十年前的工作的时候，直接来了（我们都知道）一句预训练即将终结。一个字：猛！业界有多少大佬，一辈子都在讲一个故事。虽从技术趋势上来说，这不是什么很爆炸的言论了，但是Ilya的发言必将会对于业界未来一年的方向产生重大影响。

预训练碰到什么问题了？

Pre-train的Scaling law是一种质朴的暴力出奇迹方法论：参数量扩大，数据扩大，通过下一个token预测加自然分布语料逼近智能的极限。预训练所碰到的问题，实际上在业内已经讨论了有一段时间。乐观派和悲观派围绕着继续大力出奇迹的方法是否能获得智能展开了激烈的思辩，there is no wall（Sam）和 pre-training as we know it will end（Ilya）到底谁对谁错呢？

都对，Sam和Ilya讲这两句话的前提不一样。Sam更多讲的是更广泛意义的 scaling law，也就是下面这张图里面的。这里面关心的关系是在一个模型族的条件下，模型训练的token数量，模型的参数总量和模型表现之间的关系。

https://arxiv.org/pdf/2410.11840

广义的neural scaling law，实际上直到今日还是一直奏效的，不论各家的大尺寸模型遇到了什么问题，通过提升其中的任意维度实际上还是能够继续提升在更难的benchmark上的表现的。表现在从时间维度来看，最优模型（这张图中的红色顶点）neural scaling law下的迫近人类表现的速率实际上是在不断提升的。Sam说的wall，就是下面这张图的黑线，AI大模型领域有没有一条看不见的黑线，这更多的是一种技术判断（信仰）了。

Pre-train scaling law 面临的本质问题是，模型的参数总量和模型训练的token数量这两个变量，前者是可以通过更多的算力更好的互联提升的，后者提升起来就没有那么容易了。这个非常好理解，那也没必要写一个这么小白的文章出来了。

实际上大家担心 Ilya 讲的是另外一种情况：假设我们通过其他手段，补全了训练token数量这个变量，我们neural scaling law上的小红点是否可以被继续推高，直到我们实现AGI，ASI？这也是大家关注各家大杯模型，Claude 3.5 Opus，GPT-5，Gemini 2.0 Ultra都迟迟没有发布的核心担忧。Top机构拥有更多token，甚至具有合成超越互联网语料平均质量的能力，同时算力堆叠和人才组织效率远超其他竞争者。

我的观点是 ：neural scaling law并没有失效（没有wall），但是依照pre-train为核心的能力提升方法，边际效应已经严重递减。导致部署模型的收益，难以覆盖其高昂的全链路训练成本，pre-train is dead。

正文开始之前，先做一个广告 https://zhuanlan.zhihu.com/p/676729627，以下所有提及的方向，我们都有对应的社招岗位开放（P5~P9）。如果你也同意我们的判断，但是苦于没有足够的算力，数据或场景大展拳脚，现在有一次上车的机会。

下一步何去何从：agents，合成，o1？

大佬也并不是不管大家死活的，给我们指了一些明路：agents，合成数据，还有o1 等。但是NeurIPS上，就在我等他说点干货的时候，演讲戛然而止了，这感觉像是仙人给你指了路，后面全靠自己悟。

合成数据

合成数据是目前看起来最明确的一条路径，通过自然数据和大模型的共同运作，甚至纯大模型自身的生成能力来不断扩充数据的总量。从而突破有限的自然数据的瓶颈，合成的数据也不仅仅包括Prompt，Response，也包括Preference。

基于合成数据进行训练的模型比较著名代表有Gemini Flash 1.5，Phi 系列，以及Tulu3。这些模型有些采用了on-policy蒸馏，有些采用off-policy的方法，还有的不仅合成Response也关注偏好方面。Gemini Flash 1.5是头部大模型公司，较早开始使用online on-policy distillation 的模型：

https://arxiv.org/abs/2306.13649

Gemini 1.5 Flash online

这种on-policy的KD方法和基础的KD方法之间最大的区别可以从公式来看出来，最基础的监督式蒸馏是offline的形式（不需要与teacher policy交互），直接把teacher policy的输出当成Ground Truth，然后再用SFT loss强行训练。SeqKD稍做了一些改进，只在teacher policy比较高自身置信度的序列上训练，而off-policy的KD是通过在Teacher policy的数据集上，最小化teacher和student policy的KL散度。

常见KD手段

on-policy KD 方法

那么Flash 1.5在合成数据上所使用的，是一种on-policy的online训练方法，他在训练的时候prompt x是来自于公共的数据集，y则需要通过模型自身进行sample，在这样的前提下最小化teacher和student policy之间的散度。这种做法是使用大模型给小模型做反馈，而非直接示教，能够最大程度地保留模型的diversity。

作为承载谷歌agentic era的排头兵模型，其任务不可谓不重，但是合成数据 + on-policy distillation之后的效果，是能够承担起职责定位的需求的。Gemini Flash 2.0 从公开的效果来看，其表现大致与前一代的 Pro 模型效果相当甚至有所超越。如果2.0和1.5一样，是采用了在线蒸馏及数据合成策略，那么背后就可能有个Gemini 2.0 Pro。更大的稀疏模型做在线蒸馏，以突破大量原有依赖互联网语料的瓶颈。

合成数据加off-policy offline KD，最暴力的代表就是在phi-4这个SLM (https://arxiv.org/abs/2412.08905) 展示了他们的合成数据链路， phi-4 substantially surpasses its teacher model on STEM-focused QA capabilities, giving evidence that our data-generation and post-training techniques go beyond distillation. 感觉有点倒反天罡，蒸馏出来比原版还好，众泰干掉保时捷。

Phi-4中采用了多种预训练数据合成方法，约50种的数据合成方法，为其提供了具有广泛分布的合成数据以加强SLM在推理类任务中的表现。主要的创新方法如下表所示：

名称	方法	目的
种子数据选择	从多个领域选择高质量的种子数据，作为生成任务的基础，帮助创建练习、讨论和推理任务。	提供高质量的基础数据，构建针对性的训练任务。
基于网页和代码的种子	从网页、书籍和代码库中提取复杂、有深度的内容，并通过两阶段过滤确保教育价值和质量。	提供内容丰富、推理深度高的种子数据，保证教育价值。
问题数据集	从问答平台收集问题，使用多数投票技术平衡难度，去除过于简单或过于难的题目。	生成具有挑战性、适中难度的推理问题，提升模型问题解决能力。
问答对的创建	利用语言模型从书籍、论文和代码中提取问答对，识别推理链并重新构建问题和答案，改善模型训练效果。	通过提取推理链，生成更具深度和逻辑性的问答对，提升训练效果。
重写与增强	通过多步提示工作流将种子数据转化为练习、讨论和推理任务，增强合成数据的质量。	通过重写和结构化增强数据质量，提高模型的多样性和推理能力。
自我修正	初步生成的内容通过反馈回路进行自我批评和改进，提升推理能力和事实准确性。	通过反馈循环提升模型自我改进能力，优化输出质量。
指令反转	从代码生成相应的任务描述，通过确保指令与代码一致性来提高数据质量。	提高生成代码与任务描述之间的契合度，确保合成数据的质量。
数据验证	通过执行循环和测试验证合成的代码数据，确保科学数据集的相关性、扎实性和难度平衡。	确保生成的数据具有高质量和可靠性，适用于推理任务。

Phi-4的工作向大家表明，pre-train中自然语料可以很少，通过合成语料可以更快地推动模型获得定向的能力。虽然Phi-4与Flash所追求的全方位均衡相比，有点剑走偏锋，但是对于特定任务是有其本身的价值的。

还有一类以Tulu3作为代表的合成数据方法，在大量利用off-policy数据的同时，还利用数据合成的策略收集了较多的偏好数据。简直就是超级大杂烩，用各种来源的数据做了Response生成，再使用GPT-4o做偏好判别器，选出chosen和rejected样本。我原本是对于此类行为是比较鄙夷的，这不就是蒸馏完了Response还顺带拿点Preference嘛。不过站在合成数据的层面，单纯把GPT-4o当做一种工具，探索后pre-train时代的scaling law倒也是无可厚非了。

所以合成数据为什么work？我理解其本质还是因为LLM还是当今唯一一种能够称为 世界模型 的AI系统，它具有较为广泛的基础认知，同时也经过SFT，RLHF的范式微调实现了其较强的通用指令理解能力，以此为基础，各种策略及数据生成变成可能。合成数据的高效生产本身值得更广泛地讨论，其算法也层出不穷，未来随着pre-train scaling law的逐渐落幕，此项技能势必会称为从业者的基础能力。

Agents

另外一个可能的方向，agent我就有更多的话想要说了，因为严格来说促使我走入AI这一行的关键动作，是在南安普顿求学期间蹭了图下这位大佬的课：

他就是Nick Jennings，现在拉夫堡大学的校长，南安普顿大学和这座城市的球队一样，似乎整个学校都像是其他高校的青训队。虽然学校还尚未沦落到以卖老师为生，但是在服役期间还是能够圣玛丽球场以极为便宜的价格见到未来英超巨星的风采。

JENNINGS, SYCARA AND WOOLDRIDGE：A Roadmap of Agent Research and Development

Jennings和Wooldridge的作为AI agents领域公认的泰斗级先驱人物，其本身对于agents的理解，时至今日还是对于实际工作有指导价值的。

智能体(agent)是指位于某个环境中的计算机系统，它能够以灵活自主的方式行动以实现其设计目标因此，我们的定义中包含三个关键特点：情境性(situatedness)、自主性(autonomy)和灵活性(flexibility)。

这些特点具体的含义分别是：

情境性(Situatedness) ：智能体存在于特定环境中，能够 感知 环境并通过行动影响环境
自主性(Autonomy) ：智能体能够独立行动，无需人类或其他智能体的 直接干预 并能控制自身的行动和 内部状态
灵活性(Flexibility) ：智能体能够以多样化方式响应环境，表现出 目标导向 的行为并能与其他智能体和人类互动

从这三大特点来看，当今的AI agents离30年前的定义，还仍有不小的差距。

以情境性为例，虽然目前的多模态大模型（无论是原生多模态与否）能够感知环境，但是其通过行动影响环境的能力是在是太弱了。我们的AI被封闭在手机屏幕中，固定范式流程中，某个APP的二级菜单中。它所提供的行动能力，主要集中在以文本作为模态的单一输出形式中，甚至连稳定地以文本形式精确地输出数值都是一项比较困难的事情。为了实现这种简单的行为，我们在构筑基于大模型的系统时，需要手动地修改其模型结构，如改成Reward Model的形式而丧失了其文本生成能力。感知能力方面，多模态的引入缓解了原本只能够理解一种模态的情形，但其他模态更多地像是一种文本模态的“附庸”，从参数量来看是如此，从能否独立运作来看也是如此。

知乎大佬解析Ilya最新言论：pre-train丸啦，搞agentic和reasoning吧

正文

预训练碰到什么问题了？

合成数据

Agents

请到「今天看啥」查看全文