专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
十字路口Crossing  ·  这绝对是你想不到的 2024 年 AI ... ·  昨天  
十字路口Crossing  ·  这绝对是你想不到的 2024 年 AI ... ·  昨天  
宝玉xp  ·  //@i陆三金:Anthropic ... ·  3 天前  
爱可可-爱生活  ·  【TemporalBench:视频理解基准测 ... ·  4 天前  
51好读  ›  专栏  ›  宝玉xp

转发微博-20241110102159

宝玉xp  · 微博  · AI  · 2024-11-10 10:21

正文

2024-11-10 10:21

转发微博
OpenAI 思维链小哥 Jason Wei 称 o1 范式中的思维链更像是“内心独白”或“意识流”,而原先的思维链提示词则是对预训练过程中的一些推理过程的模仿:

「在 o1 出现之前和之后,思维链(chain-of-thought)存在一种细微但重要的差异。

在 o1 范式(即思维链提示)出现之前,思维链的实际情况与我们对其的期望之间存在不匹配。我们希望思维链能够反映模型的思维过程,但模型实际上只是模仿了它在预训练中见过的推理路径,例如数学作业解答。这类数据的问题在于,它是一种事后总结的解决方案——即作者在其他地方完成所有工作后再行总结——而并非真实的思维序列。因此,这些解决方案的信息密度往往较低,尤其是类似“答案是5,因为……”这样的示例,其中“5”这个 token 承载了大量的新信息。

在 o1 范式中,思维链看起来与教科书中的数学解答非常不同(可以在博客文章中查看示例)。这些思维链更像是“内心独白”或“意识流”。你会看到模型会出现回溯,比如它会说“或者,我们来试试”或“等等,但是”。虽然我未直接测量过,但我愿意打赌(我的心理语言学朋友们或许能证实),思维链中的信息密度比互联网上的平均文本均匀得多。」

既然 Jason Wei 说到了这个问题,我又要再次推荐下之前Aidan Gomez、Andrej Karpathy 的说法,见:网页链接