点燃语言智能：从思维链推理到语言智体的指南

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-05-26 00:02

正文

23年11月论文“Igniting Language Intelligence: The Hitchhiker’s Guide From Chain-of-Thought Reasoning to Language Agents“，来自上交、AWS和耶鲁。

大语言模型（LLM）极大地增强了语言智能领域，在一系列复杂推理任务中的强大经验表现证明了这一点。此外，理论证明阐明了他们的涌现推理能力，有力地展示了在语言环境中的高级认知能力。 LLM在处理复杂推理任务方面的显著功效至关重要，它利用了有趣的思维链（CoT）推理技术，迫使它们在得出答案的过程中制定中间步骤。 CoT推理方法不仅在增强推理性能方面表现出熟练，而且在增强可解释性、可控性和灵活性方面也表现出熟练特性。鉴于这些优点，最近的研究工作扩展了CoT推理方法，以培养自主语言智体的发展，这种智体能够熟练地遵守语言指令并在不同的环境中执行动作。这篇论文策划了一场深入的讨论，贯穿了重要的研究维度，包括：（i）CoT技术的基本机制，重点是阐明其功效背后的环境和理由；（ii）CoT的范式转变；以及（iii）CoT方法强化的语言智体的兴起。前瞻性的研究途径包括对通用性、效率、定制、可扩展性和安全性的探索。

CoT推理是LLM的一种具有代表性的涌现能力（Wei et al.，2022）。它提供了一种熟练的策略，可以将复杂的问题分解为更小、可管理的子问题，通过逐步的方法系统地实现解决方案。如图所示是CoT推理与直接推理的比较。这种方法通常比直接推理更有效，后者试图同时解决整个问题。

指令通常是短句，用于提示LLM生成所需格式的答案。它们引导LLM在推理过程中一步一步地思考。将指令记为p，根据任务要求，它被设置为不同的文本序列。

将CoT推理的中间过程一致称为“基本原理”。推理可以包括解决方案、中间推理步骤或与问题相关的任何外部知识。将基本原理定义为r。如果r是由LLM生成的，则指令p可以用于获得r～pθ（x，p）。如果r是由人编写的，则可以免除指令p，并且r=f（x），其中f（‧）表示手写操作。

在少样本提示方法中，示例通常被呈现为期望的输入-输出对，每个方法都包含问题、基本原理和答案。在生成测试时间示例的预测之前，示例用作输入输出关系的上下文演示。示例通常连接在输入问题之前。

零样本CoT不要求用户提供示例。相反，它通常依靠指令来促进LLM进行逐步推理，从而生成答案。例如，（Kojima2023）首先使用指令p1（如“让我们一步一步地思考”）引发LLM生成基本原理r，然后使用指令p2（如“答案是”）获得问题和基本原理之后的最终答案。

少样本CoT涉及提供一组具有相关理由的范例。这些示例与问题连接在一起，以提示LLM生成基本原理和答案。

CoT技术已经显示出各种各样的优点，包括提高推理性能、可解释性、可控性和灵活性。

改进的推理性能。CoT有助于LLM推理过程的逐步推进。通过将复杂的多步骤问题分解为中间阶段，CoT将忽略关键细节的风险降至最低。此外，它还确保了将额外的计算资源有效地分配给需要更高推理步骤的问题。许多研究已经最终证明了CoT在广泛领域的有效性，包括算术推理、常识推理和符号推理（Wei，2023b；，Kojima 2023；Wang，2023f）。

改进的可解释性。CoT为LLM的决策过程提供了一个可解释点。将复杂的推理任务分解为一系列相互关联的思想，可以更容易地理解LLM做出的决策或结论背后的潜在逻辑和推理。它揭示了模型是如何得出具体答案的，为调试和确定推理过程可能偏离正确路径的地方提供了有价值的见解。然而，需要注意的是，充分表征支持答案的模型计算仍然是一个悬而未决的挑战（Wei et al.，2023b）。

提高的可控性。通过提示LLM输出一系列相互关联的思想，用户可以对LLM的认知过程施加更大的影响。许多研究（Yao，2023a；Ling，2023）致力于识别和纠正特定思维单元，其推理路径可能偏离了轨道或需要额外信息的地方。这种增加的可控性允许更深思熟虑和准确的答案。

改进的灵活性。在足够大的现成LLM中，通过简单地在零样本CoT的输入问题末尾添加指令或结合用于少样本CoT的示例，可以很容易地提示CoT推理的使用（Wei et al.，2023b）。CoT的灵活性超出了推理任务的范围，使其适用于广泛的领域，包括经典的自然语言处理（NLP）、科学应用和基于智体的系统。

尽管CoT已经显示出有希望的益处，但它可能不是适合任何条件（Kojima，2023；Wei，2023b；Zhang，2023d）。

•从工程的角度来看，（Wei2023b）认为CoT推理在三个条件下是有帮助的：（i）使用LLM；（ii）该任务具有挑战性，需要多步骤推理；（iii）在模型大小缩放的同时，直接提示的性能不会显著提高。值得注意的是，（Tay2022）进一步提供了证据，证明在混合去噪函数上预训练的200亿个参数LLM也可以实现有效的CoT推理。否则，CoT技术往往难以处理较小规模的LLM（Wei，2022）。可能会导致幻觉，因为LLM缺乏支持性知识（Zhang et al.，2023d）和较差的推理能力（Magister et al.，2022）。CoT推理在简单的步骤任务中也不太有效，如匹配、序列标记（Qin et al.，2023a）和单选问题（Chen et al.，2021）。

•从理论角度来看，（Prystawski和Goodman2023）证明，当训练数据（可能被视为LLM中的参数知识）由相互影响很大的局部变量簇组成时，CoT推理是有帮助的。这一发现意味着LLM必须具备与任务相关的知识，才能支持CoT推理。我们把这种知识称为核心知识。

由于CoT推理通常由上下文学习（ICL）引发，如零样本CoT和少样本CoT，另一条研究线试图从ICL的角度理解CoT何时工作。（Zhang2023c）表明，当使用不同的样本进行提示时，CoT推理仍然有效。（Wang2023a）发现，与查询相关的理由和正确排序推理步骤是CoT提示有效性的关键。

除了提示之外，在训练语料库中引入LLM的推理材料和必要知识，也大大提高了LLM的CoT推理能力（Yu et al.，2023b）。最近的研究发现，使用代码数据进行预训练（Chung et al.，2022）或使用CoT风格数据进行微调（例如，指令调整）有利于有效的CoT推理（Yue et al.，2023）。也就是说，可以改进在同样LLM的CoT推理，或者可以在较小的模型中诱导CoT推理能力。

基于以上讨论，CoT在两个总体条件下证明了有效性：第一，当使用特别具有至少200亿个参数的LLM时，第二，当LLM中的参数知识包括（i）与手头任务相关的知识片段和（ii）保持强大的相互关联时。

最近的研究采用了实证和理论方法，试图理解CoT有效性的根本原因。

•根据经验，（Wei2023b）认为，CoT推理的成功构成了一个多方面考虑的现象，可能涉及各种涌现能力。这些能力包括语义理解、符号映射、主题连贯、算术能力和忠实度。有趣的是，（Zhang-2023c）发现，范例推理中的错误不会导致绩效显著下降。（Wang-2023a）报道了一个类似的观察结果，即LLM可以生成连贯的推理步骤，并实现80-90%以上的性能，尽管在示例中出现了无效的推理步骤。这些发现表明，LLM在预训练后已经具有天生的推理能力（Zhang et al.，2023c；Wang&Wang，2023）。CoT提示指定了一种输出格式，该格式将模型生成规则化，以便在有序且与查询相关的情况下逐步生成（Wang，2023a）。换句话说，CoT技术有助于迫使模型进行推理，而不是教它如何完成推理（Zhang et al.，2023c）。

•从理论上讲，贝叶斯推理是从理论角度研究CoT为什么有效的一种流行方法（Prystawski&Goodman，2023；Wang-&-Wang，2023）。（Prystawski&Goodman2023）证明了当训练数据相对于变量之间依赖性表现出局部化结构时，CoT是有效的。在LLM的上下文中，可以解释LLM中的参数知识包括与目标问题相关的知识片段，并且这些知识片段彼此之间具有强大的相互联系。为了验证这一证据，（Bi2023）对代码数据进行了实证研究，发现数据的局部结构特性对提高CoT推理能力至关重要。（Prystawski&Goodman2023）和（Bi2023）的这些发现有力地表明，CoT可以帮助识别用于推理的核心知识片段，并将其与中间推理步骤之间的关系联系起来。同样，（Wang&Wang2023）使用知识图进行分析，发现将已知事实组织为“链”，即CoT，会显著影响推理的有效性。通过这样做，LLM能够从已知事实中准确地推断出以前未见过的事实，回答给定的查询，无需显式地编码推理规则。

在阐明了决定CoT何时有效以及为什么有效的一般条件后，对CoT对LLM的推理能力的改进有更深刻和直观的理解。截至2023年10月，总结CoT在七个最具象征性的推理任务中的最佳性能。将这些性能与没有CoT的性能进行了比较，在如图展示。这七项推理任务跨越不同的类别，包括：（i）算术推理：GSM8K（Cobbe et al.，2021）、AQuA（Ling et al.，2017）和SVAMP（Patel et al.，2020）；（ii）常识推理：CSQA（Talmor，2019）和战略QA（Geva，2021）；（iii）符号推理：最后一个字母连接（Wei，2023b）和硬币翻转（Wei et al.，2023b）。

随着人们对CoT的兴趣越来越大，研究人员不断努力利用它的全部潜力来增强LLM的推理能力。如图所示是CoT概览图，包括在三个关键方向：（i）提示模式（指令生成和范例生成）；（ii）推理格式（CoT公式、推理聚合和CoT验证）；以及（iii）应用场景（多语言、多模式和通用任务）。

推理格式的增强主要包括三个方面：CoT公式化、推理聚合和CoT验证。CoT公式侧重于将顺序CoT转换为各种认知结构，如树、图或表格格式，从而结合结构思维线索。推理聚合主要涉及通过聚合从LLM采样的结果来增强LLM-CoT推理精度。CoT验证主要强调引入验证方法来验证和修改CoT推理过程。

如图是CoT的公式变化，按时间顺序说明了五种具有代表性的CoT公式：（i）思维链（CoT），（ii）思维程序（PoT）（Chen et al.，2022），（iii）思维表（Tab-CoT）（Ziqi&Lu，2023），（iv）思维树（ToT）（Yao et al.，2023a），（v）思维原理图（GoT-rationale）（Besta et al.，2021）。

LLM能否进行可靠的CoT验证？尽管CoT验证方法作为提高推理性能和可靠性的补救措施，但验证的作用和有效性仍受到质疑。最近的工作试图检验LLM在推理任务中的自我验证能力（Valmickam，2023；Huang，2023a；Stechly，2022）。（Huang2023a）发现，在CoT验证研究中观察到的增强通常是通过使用启示oracles来促进的，启示oracles使用基本事实标签、外部工具或来自环境的反馈来指导自我纠正过程，评估响应的正确性。然而，重要的是，要注意在现实世界的应用中获得高质量的外部反馈是具有挑战性的。在没有启示oracle的情况下，LLM仅仅依靠其固有能力纠正初始响应遇到了困难——这是不完美验证。在不完美验证场景中，LLM倾向于不存在违规行为，并用假阳性过度纠正推理过程——直接绕过正确的解决方案，尤其是在验证过程中出现错误时（Valmickam，2023）。这一现象引发了人们对LLM准确评估其推理过程正确性的内在能力的担忧。很明显，实现有效CoT验证的关键在于利用外部高质量的反馈进行验证。例如，将搜索引擎和计算器等外部工具集成到验证过程中已经证明是有益的（Chen，2022；2023d；Olausson，2023；Pan，2024）。

受上述增强LLM推理能力的启发，CoT技术随着其应用场景的变化显示出更大的影响。应用场景的转变包括从单语言任务扩展到多语言任务，从单模态扩展到多模态，从复杂推理任务扩展到通用任务。

如图是多模态CoT的公式化。将CoT中的多模态分为两种类型：（i）输入多模态：各种模态，如文本、图像（Zhang et al.，2023d）、字幕（Huang et al.，202 3b）和图（Tao2023c）被纳入模型的输入中；（ii）输出多模态：包括文本和图像在内的多模态（Rose et al.，2023）被引入模型的输出中。

因此，在CoT技术的支持下，基于LLM的语言智体已经出现在广泛的研究领域，如工程（Li，2023a；Mehta，2023；Qian，2024）、自然科学（Bran，2025；Kang&Kim，2023，Boiko，2026）和社会科学（Aher，2027；Akata，2028；Ma，2029；Dan，20210）。这些语言智体能够在真实世界或模拟环境中遵循语言指令并执行动作。如图展示了自主控制（Rawles et al.，2023；Jiang et al.，2022）、研究（Bran et al.，2021；Boiko et al.，2020）、编程（Bairi，2023）和交互（Park et al.，202）等智体的代表性应用场景。

环境交互。语言智体的一个内在特征是与环境交流、互动和进化。这样的环境包括操作系统、第三方应用程序、网页和虚拟环境。LLM使用两种方法处理环境，即环境解析和多模态感知，这取决于LLM是否有能力对多模态输入进行建模。环境解析是指利用OCR和图标检测器等外部工具（Zhang et al.，2021；Sunkara et al.，2022）将环境解析为文本元素（例如，HTML布局）作为LLM的输入方法。相比之下，多模态感知，也称为第一原理思维（Zhang&Zhang，2023），是指使用多模态LLM同时处理不同模态的输入。为了构建多模态LLM，一种流行的方法是使用简单的投影矩阵将预训练的大型视觉模型（例如，CLIP（Radford，2021）和BLIP-2（Li，2023c），集成到LLM中（Liu，2023b；Zhang，2023a）。最近的研究还探索了将不同模态的输入建模到同一向量空间中，从而导致任意-到-任意表示学习（Huang et al.，2023b；Wu et al.，2021；Moon et al.，202）和交织多模态表示学习（Li et al.，2020 3b；Zhao et al.，2022）。

点燃语言智能：从思维链推理到语言智体的指南

正文

请到「今天看啥」查看全文