转发微博
OpenAI 思维链小哥 Jason Wei 称 o1 范式中的思维链更像是“内心独白”或“意识流”,而原先的思维链提示词则是对预训练过程中的一些推理过程的模仿:
「在 o1 出现之前和之后,思维链(chain-of-thought)存在一种细微但重要的差异。
在 o1 范式(即思维链提示)出现之前,思维链的实际情况与我们对其的期望之间存在不匹配。我们希望思维链能够反映模型的思维过程,但模型实际上只是模仿了它在预训练中见过的推理路径,例如数学作业解答。这类数据的问题在于,它是一种事后总结的解决方案——即作者在其他地方完成所有工作后再行总结——而并非真实的思维序列。因此,这些解决方案的信息密度往往较低,尤其是类似“答案是5,因为……”这样的示例,其中“5”这个 token 承载了大量的新信息。
在 o1 范式中,思维链看起来与教科书中的数学解答非常不同(可以在博客文章中查看示例)。这些思维链更像是“内心独白”或“意识流”。你会看到模型会出现回溯,比如它会说“或者,我们来试试”或“等等,但是”。虽然我未直接测量过,但我愿意打赌(我的心理语言学朋友们或许能证实),思维链中的信息密度比互联网上的平均文本均匀得多。」
既然 Jason Wei 说到了这个问题,我又要再次推荐下之前Aidan Gomez、Andrej Karpathy 的说法,见:网页链接
「在 o1 出现之前和之后,思维链(chain-of-thought)存在一种细微但重要的差异。
在 o1 范式(即思维链提示)出现之前,思维链的实际情况与我们对其的期望之间存在不匹配。我们希望思维链能够反映模型的思维过程,但模型实际上只是模仿了它在预训练中见过的推理路径,例如数学作业解答。这类数据的问题在于,它是一种事后总结的解决方案——即作者在其他地方完成所有工作后再行总结——而并非真实的思维序列。因此,这些解决方案的信息密度往往较低,尤其是类似“答案是5,因为……”这样的示例,其中“5”这个 token 承载了大量的新信息。
在 o1 范式中,思维链看起来与教科书中的数学解答非常不同(可以在博客文章中查看示例)。这些思维链更像是“内心独白”或“意识流”。你会看到模型会出现回溯,比如它会说“或者,我们来试试”或“等等,但是”。虽然我未直接测量过,但我愿意打赌(我的心理语言学朋友们或许能证实),思维链中的信息密度比互联网上的平均文本均匀得多。」
既然 Jason Wei 说到了这个问题,我又要再次推荐下之前Aidan Gomez、Andrej Karpathy 的说法,见:网页链接