CoT推理是LLM的一种具有代表性的涌现能力(Wei et al.,2022)。它提供了一种熟练的策略,可以将复杂的问题分解为更小、可管理的子问题,通过逐步的方法系统地实现解决方案。如图所示是CoT推理与直接推理的比较。这种方法通常比直接推理更有效,后者试图同时解决整个问题。
利用预训练过程中开发的推理能力(Xie et al.,2022;
Wang et al.,2023a),CoT提示能够熟练地识别推理过程所必需的核心知识成分,并无缝集成它们的关系,从而构建中间的、连贯的推理步骤(Prystawski&Goodman,2023;
Wang&Wang,2023)。
在解决这些子问题时,可以使用知识检索和验证工具来进一步增强推理过程(Gou,2023a;
Qin,2023b)。
将CoT扩展为感知、记忆和推理的综合框架,以LLM为动力的语言智体,已经能够熟练地遵守语言指令,并在现实世界或模拟环境中执行动作(Rawles,2023;
Zhang&Zhang,2023)。
这些语言智体有两种风格:
(i)自主智体(Adept,2022;
Richards,2023;
Hong,2023;
Nakajima,2023)和(ii)通信智体(Park et al., 2023; Wang et al., 2023c; Zhu et al., 2023; Hong et al., 2023)。
如图概述了在感知、记忆和推理中使用思维链CoT机制的语言智体框架。
思维链的概念是指为解决问题或得出答案而产生的一系列中间推理步骤(Wei et al.,2023b),其形式为
映射。
这种方法通常比传统的直接推理更有效,后者试图同时解决整个问题。
例如,标准分类、多选和问答问题通常以<input>的形式利用直接推理→output>映射。
改进的可解释性
。CoT为LLM的决策过程提供了一个可解释点。将复杂的推理任务分解为一系列相互关联的思想,可以更容易地理解LLM做出的决策或结论背后的潜在逻辑和推理。它揭示了模型是如何得出具体答案的,为调试和确定推理过程可能偏离正确路径的地方提供了有价值的见解。然而,需要注意的是,充分表征支持答案的模型计算仍然是一个悬而未决的挑战(Wei et al.,2023b)。
改进的灵活性
。在足够大的现成LLM中,通过简单地在零样本CoT的输入问题末尾添加指令或结合用于少样本CoT的示例,可以很容易地提示CoT推理的使用(Wei et al.,2023b)。CoT的灵活性超出了推理任务的范围,使其适用于广泛的领域,包括经典的自然语言处理(NLP)、科学应用和基于智体的系统。
•从工程的角度来看,(Wei2023b)认为CoT推理在三个条件下是有帮助的:(i)使用LLM;(ii)该任务具有挑战性,需要多步骤推理;(iii)在模型大小缩放的同时,直接提示的性能不会显著提高。值得注意的是,(Tay2022)进一步提供了证据,证明在混合去噪函数上预训练的200亿个参数LLM也可以实现有效的CoT推理。否则,CoT技术往往难以处理较小规模的LLM(Wei,2022)。可能会导致幻觉,因为LLM缺乏支持性知识(Zhang et al.,2023d)和较差的推理能力(Magister et al.,2022)。CoT推理在简单的步骤任务中也不太有效,如匹配、序列标记(Qin et al.,2023a)和单选问题(Chen et al.,2021)。
除了提示之外,在训练语料库中引入LLM的推理材料和必要知识,也大大提高了LLM的CoT推理能力(Yu et al.,2023b)。最近的研究发现,使用代码数据进行预训练(Chung et al.,2022)或使用CoT风格数据进行微调(例如,指令调整)有利于有效的CoT推理(Yue et al.,2023)。也就是说,可以改进在同样LLM的CoT推理,或者可以在较小的模型中诱导CoT推理能力。
•根据经验,(Wei2023b)认为,CoT推理的成功构成了一个多方面考虑的现象,可能涉及各种涌现能力。这些能力包括语义理解、符号映射、主题连贯、算术能力和忠实度。有趣的是,(Zhang-2023c)发现,范例推理中的错误不会导致绩效显著下降。(Wang-2023a)报道了一个类似的观察结果,即LLM可以生成连贯的推理步骤,并实现80-90%以上的性能,尽管在示例中出现了无效的推理步骤。这些发现表明,LLM在预训练后已经具有天生的推理能力(Zhang et al.,2023c;Wang&Wang,2023)。CoT提示指定了一种输出格式,该格式将模型生成规则化,以便在有序且与查询相关的情况下逐步生成(Wang,2023a)。换句话说,CoT技术有助于迫使模型进行推理,而不是教它如何完成推理(Zhang et al.,2023c)。
在阐明了决定CoT何时有效以及为什么有效的一般条件后,对CoT对LLM的推理能力的改进有更深刻和直观的理解。截至2023年10月,总结CoT在七个最具象征性的推理任务中的最佳性能。将这些性能与没有CoT的性能进行了比较,在如图展示。这七项推理任务跨越不同的类别,包括:(i)算术推理:GSM8K(Cobbe et al.,2021)、AQuA(Ling et al.,2017)和SVAMP(Patel et al.,2020);(ii)常识推理:CSQA(Talmor,2019)和战略QA(Geva,2021);(iii)符号推理:最后一个字母连接(Wei,2023b)和硬币翻转(Wei et al.,2023b)。
如图是CoT的公式变化,按时间顺序说明了五种具有代表性的CoT公式:(i)思维链(CoT),(ii)思维程序(PoT)(Chen et al.,2022),(iii)思维表(Tab-CoT)(Ziqi&Lu,2023),(iv)思维树(ToT)(Yao et al.,2023a),(v)思维原理图(GoT-rationale)(Besta et al.,2021)。
如图是多模态CoT的公式化。将CoT中的多模态分为两种类型:(i)输入多模态:各种模态,如文本、图像(Zhang et al.,2023d)、字幕(Huang et al.,202 3b)和图(Tao2023c)被纳入模型的输入中;(ii)输出多模态:包括文本和图像在内的多模态(Rose et al.,2023)被引入模型的输出中。
因此,在CoT技术的支持下,基于LLM的语言智体已经出现在广泛的研究领域,如工程(Li,2023a;Mehta,2023;Qian,2024)、自然科学(Bran,2025;Kang&Kim,2023,Boiko,2026)和社会科学(Aher,2027;Akata,2028;Ma,2029;Dan,20210)。这些语言智体能够在真实世界或模拟环境中遵循语言指令并执行动作。如图展示了自主控制(Rawles et al.,2023;Jiang et al.,2022)、研究(Bran et al.,2021;Boiko et al.,2020)、编程(Bairi,2023)和交互(Park et al.,202)等智体的代表性应用场景。
智体骨干模型
。语言智体可以建立在单一模态LLM或多模态LLM上。完成一项任务通常需要多个交互步骤。整个过程被称为一集(episode),由一系列的转折组成。为了完成任务,智体需要提前规划,做出决定,并在每一集的转折点执行行动。规划、决策和行动执行的过程可以反映LLM的推理能力,因为LLM暴露在LLM预训练期间不存在的真实世界或虚拟环境中。在这种环境中,LLM必须感知世界的知识并采取行动,在这种情况下,CoT有助于弥合环境感知与LLM天生能力之间的差距。这样的智体扩展了语言模型的范围,在特定领域竞争,包括应用程序操作、网络搜索和网络购物。有两种流行的语言智体:自主和交际。自主智体的典型例子是AutoGPT(Richards,2023)、BabyAGI(Nakajima,2023)。相反,交际智体是具有人类行为的个性化和社会化智体,可以相互交流(Park et al.,2023;Wang,2023c;Zhu,2023)、合作(Hong et al.,2021;Qian2022)和辩论(Liang et al.,2020 3;Du2021 3;Xiong2023a)。它们通常部署在身临其境的环境中。
环境交互
。语言智体的一个内在特征是与环境交流、互动和进化。这样的环境包括操作系统、第三方应用程序、网页和虚拟环境。LLM使用两种方法处理环境,即环境解析和多模态感知,这取决于LLM是否有能力对多模态输入进行建模。环境解析是指利用OCR和图标检测器等外部工具(Zhang et al.,2021;Sunkara et al.,2022)将环境解析为文本元素(例如,HTML布局)作为LLM的输入方法。相比之下,多模态感知,也称为第一原理思维(Zhang&Zhang,2023),是指使用多模态LLM同时处理不同模态的输入。为了构建多模态LLM,一种流行的方法是使用简单的投影矩阵将预训练的大型视觉模型(例如,CLIP(Radford,2021)和BLIP-2(Li,2023c),集成到LLM中(Liu,2023b;Zhang,2023a)。最近的研究还探索了将不同模态的输入建模到同一向量空间中,从而导致任意-到-任意表示学习(Huang et al.,2023b;Wu et al.,2021;Moon et al.,202)和交织多模态表示学习(Li et al.,2020 3b;Zhao et al.,2022)。