专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
新北方  ·  女子过安检,口袋里竟然探出蛇头…… ·  2 天前  
新北方  ·  再冷三天!大幅升温已能望见,直指10℃ ·  2 天前  
新北方  ·  沈阳人注意!这个路段将封闭施工! ·  3 天前  
新北方  ·  定点药店“比价神器”上线!含辽宁 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

点燃语言智能:从思维链推理到语言智体的指南

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-05-26 00:02

正文

23年11月论文“Igniting Language Intelligence: The Hitchhiker’s Guide From Chain-of-Thought Reasoning to Language Agents“,来自上交、AWS和耶鲁。

大语言模型(LLM)极大地增强了语言智能领域,在一系列复杂推理任务中的强大经验表现证明了这一点。 此外,理论证明阐明了他们的涌现推理能力,有力地展示了在语言环境中的高级认知能力。 LLM在处理复杂推理任务方面的显著功效至关重要,它利用了有趣的思维链(CoT)推理技术,迫使它们在得出答案的过程中制定中间步骤。 CoT推理方法不仅在增强推理性能方面表现出熟练,而且在增强可解释性、可控性和灵活性方面也表现出熟练特性。 鉴于这些优点,最近的研究工作扩展了CoT推理方法,以培养自主语言智体的发展,这种智体能够熟练地遵守语言指令并在不同的环境中执行动作。 这篇论文策划了一场深入的讨论,贯穿了重要的研究维度,包括: (i)CoT技术的基本机制,重点是阐明其功效背后的环境和理由; (ii)CoT的范式转变; 以及(iii)CoT方法强化的语言智体的兴起。 前瞻性的研究途径包括对通用性、效率、定制、可扩展性和安全性的探索。

CoT推理是LLM的一种具有代表性的涌现能力(Wei et al.,2022)。它提供了一种熟练的策略,可以将复杂的问题分解为更小、可管理的子问题,通过逐步的方法系统地实现解决方案。如图所示是CoT推理与直接推理的比较。这种方法通常比直接推理更有效,后者试图同时解决整个问题。

利用预训练过程中开发的推理能力(Xie et al.,2022; Wang et al.,2023a),CoT提示能够熟练地识别推理过程所必需的核心知识成分,并无缝集成它们的关系,从而构建中间的、连贯的推理步骤(Prystawski&Goodman,2023; Wang&Wang,2023)。 在解决这些子问题时,可以使用知识检索和验证工具来进一步增强推理过程(Gou,2023a; Qin,2023b)。 将CoT扩展为感知、记忆和推理的综合框架,以LLM为动力的语言智体,已经能够熟练地遵守语言指令,并在现实世界或模拟环境中执行动作(Rawles,2023; Zhang&Zhang,2023)。 这些语言智体有两种风格: (i)自主智体(Adept,2022; Richards,2023; Hong,2023; Nakajima,2023)和(ii)通信智体(Park et al., 2023; Wang et al., 2023c; Zhu et al., 2023; Hong et al., 2023)。 如图概述了在感知、记忆和推理中使用思维链CoT机制的语言智体框架。


思维链的概念是指为解决问题或得出答案而产生的一系列中间推理步骤(Wei et al.,2023b),其形式为 映射。 这种方法通常比传统的直接推理更有效,后者试图同时解决整个问题。 例如,标准分类、多选和问答问题通常以<input>的形式利用直接推理→output>映射。

指令通常是短句,用于提示LLM生成所需格式的答案。它们引导LLM在推理过程中一步一步地思考。将指令记为p,根据任务要求,它被设置为不同的文本序列。

将CoT推理的中间过程一致称为“基本原理”。推理可以包括解决方案、中间推理步骤或与问题相关的任何外部知识。将基本原理定义为r。如果r是由LLM生成的,则指令p可以用于获得r~pθ(x,p)。如果r是由人编写的,则可以免除指令p,并且r=f(x),其中f(‧)表示手写操作。

在少样本提示方法中,示例通常被呈现为期望的输入-输出对,每个方法都包含问题、基本原理和答案。在生成测试时间示例的预测之前,示例用作输入输出关系的上下文演示。示例通常连接在输入问题之前。

零样本CoT不要求用户提供示例。相反,它通常依靠指令来促进LLM进行逐步推理,从而生成答案。例如,(Kojima2023)首先使用指令p1(如“让我们一步一步地思考”)引发LLM生成基本原理r,然后使用指令p2(如“答案是”)获得问题和基本原理之后的最终答案。

少样本CoT涉及提供一组具有相关理由的范例。这些示例与问题连接在一起,以提示LLM生成基本原理和答案。

CoT技术已经显示出各种各样的优点,包括提高推理性能、可解释性、可控性和灵活性。

改进的推理性能 。CoT有助于LLM推理过程的逐步推进。通过将复杂的多步骤问题分解为中间阶段,CoT将忽略关键细节的风险降至最低。此外,它还确保了将额外的计算资源有效地分配给需要更高推理步骤的问题。许多研究已经最终证明了CoT在广泛领域的有效性,包括算术推理、常识推理和符号推理(Wei,2023b;,Kojima 2023;Wang,2023f)。

改进的可解释性 。CoT为LLM的决策过程提供了一个可解释点。将复杂的推理任务分解为一系列相互关联的思想,可以更容易地理解LLM做出的决策或结论背后的潜在逻辑和推理。它揭示了模型是如何得出具体答案的,为调试和确定推理过程可能偏离正确路径的地方提供了有价值的见解。然而,需要注意的是,充分表征支持答案的模型计算仍然是一个悬而未决的挑战(Wei et al.,2023b)。

提高的可控性 。通过提示LLM输出一系列相互关联的思想,用户可以对LLM的认知过程施加更大的影响。许多研究(Yao,2023a;Ling,2023)致力于识别和纠正特定思维单元,其推理路径可能偏离了轨道或需要额外信息的地方。这种增加的可控性允许更深思熟虑和准确的答案。

改进的灵活性 。在足够大的现成LLM中,通过简单地在零样本CoT的输入问题末尾添加指令或结合用于少样本CoT的示例,可以很容易地提示CoT推理的使用(Wei et al.,2023b)。CoT的灵活性超出了推理任务的范围,使其适用于广泛的领域,包括经典的自然语言处理(NLP)、科学应用和基于智体的系统。

尽管CoT已经显示出有希望的益处,但它可能不是适合任何条件(Kojima,2023;Wei,2023b;Zhang,2023d)。

•从工程的角度来看,(Wei2023b)认为CoT推理在三个条件下是有帮助的:(i)使用LLM;(ii)该任务具有挑战性,需要多步骤推理;(iii)在模型大小缩放的同时,直接提示的性能不会显著提高。值得注意的是,(Tay2022)进一步提供了证据,证明在混合去噪函数上预训练的200亿个参数LLM也可以实现有效的CoT推理。否则,CoT技术往往难以处理较小规模的LLM(Wei,2022)。可能会导致幻觉,因为LLM缺乏支持性知识(Zhang et al.,2023d)和较差的推理能力(Magister et al.,2022)。CoT推理在简单的步骤任务中也不太有效,如匹配、序列标记(Qin et al.,2023a)和单选问题(Chen et al.,2021)。

•从理论角度来看,(Prystawski和Goodman2023)证明,当训练数据(可能被视为LLM中的参数知识)由相互影响很大的局部变量簇组成时,CoT推理是有帮助的。这一发现意味着LLM必须具备与任务相关的知识,才能支持CoT推理。我们把这种知识称为核心知识。

由于CoT推理通常由上下文学习(ICL)引发,如零样本CoT和少样本CoT,另一条研究线试图从ICL的角度理解CoT何时工作。(Zhang2023c)表明,当使用不同的样本进行提示时,CoT推理仍然有效。(Wang2023a)发现,与查询相关的理由和正确排序推理步骤是CoT提示有效性的关键。

除了提示之外,在训练语料库中引入LLM的推理材料和必要知识,也大大提高了LLM的CoT推理能力(Yu et al.,2023b)。最近的研究发现,使用代码数据进行预训练(Chung et al.,2022)或使用CoT风格数据进行微调(例如,指令调整)有利于有效的CoT推理(Yue et al.,2023)。也就是说,可以改进在同样LLM的CoT推理,或者可以在较小的模型中诱导CoT推理能力。

基于以上讨论,CoT在两个总体条件下证明了有效性:第一,当使用特别具有至少200亿个参数的LLM时,第二,当LLM中的参数知识包括(i)与手头任务相关的知识片段和(ii)保持强大的相互关联时。

最近的研究采用了实证和理论方法,试图理解CoT有效性的根本原因。

•根据经验,(Wei2023b)认为,CoT推理的成功构成了一个多方面考虑的现象,可能涉及各种涌现能力。这些能力包括语义理解、符号映射、主题连贯、算术能力和忠实度。有趣的是,(Zhang-2023c)发现,范例推理中的错误不会导致绩效显著下降。(Wang-2023a)报道了一个类似的观察结果,即LLM可以生成连贯的推理步骤,并实现80-90%以上的性能,尽管在示例中出现了无效的推理步骤。这些发现表明,LLM在预训练后已经具有天生的推理能力(Zhang et al.,2023c;Wang&Wang,2023)。CoT提示指定了一种输出格式,该格式将模型生成规则化,以便在有序且与查询相关的情况下逐步生成(Wang,2023a)。换句话说,CoT技术有助于迫使模型进行推理,而不是教它如何完成推理(Zhang et al.,2023c)。

•从理论上讲,贝叶斯推理是从理论角度研究CoT为什么有效的一种流行方法(Prystawski&Goodman,2023;Wang-&-Wang,2023)。(Prystawski&Goodman2023)证明了当训练数据相对于变量之间依赖性表现出局部化结构时,CoT是有效的。在LLM的上下文中,可以解释LLM中的参数知识包括与目标问题相关的知识片段,并且这些知识片段彼此之间具有强大的相互联系。为了验证这一证据,(Bi2023)对代码数据进行了实证研究,发现数据的局部结构特性对提高CoT推理能力至关重要。(Prystawski&Goodman2023)和(Bi2023)的这些发现有力地表明,CoT可以帮助识别用于推理的核心知识片段,并将其与中间推理步骤之间的关系联系起来。同样,(Wang&Wang2023)使用知识图进行分析,发现将已知事实组织为“链”,即CoT,会显著影响推理的有效性。通过这样做,LLM能够从已知事实中准确地推断出以前未见过的事实,回答给定的查询,无需显式地编码推理规则。

在阐明了决定CoT何时有效以及为什么有效的一般条件后,对CoT对LLM的推理能力的改进有更深刻和直观的理解。截至2023年10月,总结CoT在七个最具象征性的推理任务中的最佳性能。将这些性能与没有CoT的性能进行了比较,在如图展示。这七项推理任务跨越不同的类别,包括:(i)算术推理:GSM8K(Cobbe et al.,2021)、AQuA(Ling et al.,2017)和SVAMP(Patel et al.,2020);(ii)常识推理:CSQA(Talmor,2019)和战略QA(Geva,2021);(iii)符号推理:最后一个字母连接(Wei,2023b)和硬币翻转(Wei et al.,2023b)。

上图清楚地表明,复杂推理任务中的基准性能发展迅速,CoT对LLM在所有七个任务中的推理能力产生了重大影响。 值得注意的是,除了常识性推理之外,(Wei2023b)提出的相对简单的CoT格式,Manual-CoT,与算术和符号推理中的直接提示相比,大大提高了整体准确性。

随着人们对CoT的兴趣越来越大,研究人员不断努力利用它的全部潜力来增强LLM的推理能力。如图所示是CoT概览图,包括在三个关键方向:(i) 提示模式(指令生成和范例生成);(ii)推理格式(CoT公式、推理聚合和CoT验证);以及(iii)应用场景(多语言、多模式和通用任务)。

提示模式主要可分为两个部分: 指令生成和范例生成。 指令生成主要侧重于找到提示LLM的最佳指令,能够进行逐步推理,而不是直接回答问题。 这种方法的主要目的是最大限度地提高LLM的零样本能力。 示例生成主要集中于找到少样本CoT最佳输入-输出的示范示例对集合。 这些示例用于提示LLM和测试输入,使模型能够预测相应的输出。

推理格式的增强主要包括三个方面:CoT公式化、推理聚合和CoT验证。CoT公式侧重于将顺序CoT转换为各种认知结构,如树、图或表格格式,从而结合结构思维线索。推理聚合主要涉及通过聚合从LLM采样的结果来增强LLM-CoT推理精度。CoT验证主要强调引入验证方法来验证和修改CoT推理过程。

如图是CoT的公式变化,按时间顺序说明了五种具有代表性的CoT公式:(i)思维链(CoT),(ii)思维程序(PoT)(Chen et al.,2022),(iii)思维表(Tab-CoT)(Ziqi&Lu,2023),(iv)思维树(ToT)(Yao et al.,2023a),(v)思维原理图(GoT-rationale)(Besta et al.,2021)。


CoT验证最初侧重于通过多轮提问进行自我验证,使模型能够验证自己的回答。 后来的工作涉及利用外部工具进行信息验证,如信息检索、计算器或程序执行。

LLM能否进行可靠的CoT验证?尽管CoT验证方法作为提高推理性能和可靠性的补救措施,但验证的作用和有效性仍受到质疑。最近的工作试图检验LLM在推理任务中的自我验证能力(Valmickam,2023;Huang,2023a;Stechly,2022)。(Huang2023a)发现,在CoT验证研究中观察到的增强通常是通过使用启示oracles来促进的,启示oracles使用基本事实标签、外部工具或来自环境的反馈来指导自我纠正过程,评估响应的正确性。然而,重要的是,要注意在现实世界的应用中获得高质量的外部反馈是具有挑战性的。在没有启示oracle的情况下,LLM仅仅依靠其固有能力纠正初始响应遇到了困难——这是不完美验证。在不完美验证场景中,LLM倾向于不存在违规行为,并用假阳性过度纠正推理过程——直接绕过正确的解决方案,尤其是在验证过程中出现错误时(Valmickam,2023)。这一现象引发了人们对LLM准确评估其推理过程正确性的内在能力的担忧。很明显,实现有效CoT验证的关键在于利用外部高质量的反馈进行验证。例如,将搜索引擎和计算器等外部工具集成到验证过程中已经证明是有益的(Chen,2022;2023d;Olausson,2023;Pan,2024)。

受上述增强LLM推理能力的启发,CoT技术随着其应用场景的变化显示出更大的影响。应用场景的转变包括从单语言任务扩展到多语言任务,从单模态扩展到多模态,从复杂推理任务扩展到通用任务。

如图是多模态CoT的公式化。将CoT中的多模态分为两种类型:(i)输入多模态:各种模态,如文本、图像(Zhang et al.,2023d)、字幕(Huang et al.,202 3b)和图(Tao2023c)被纳入模型的输入中;(ii)输出多模态:包括文本和图像在内的多模态(Rose et al.,2023)被引入模型的输出中。

CoT推理对人工智能社区产生了更广泛的影响,特别是推动了现实生活中自主智体的发展。 构建能够在不同环境中学习和动作的智能自主智体是人工智能(AI)的长期目标(Searle,1969; Wooldridge&Jennings,1995; Maes,1995; Hendler,1999; Wang,2023b; Xi,2023; Zhou,2023d)。 CoT推理方法已被用于感知、记忆和推理,即语言智体,从而实现了在日益复杂的环境中的交互。 这些能力是开发自主智体的基础,通过人-智体和智体-智体之间的协作来帮助解决复杂任务。

因此,在CoT技术的支持下,基于LLM的语言智体已经出现在广泛的研究领域,如工程(Li,2023a;Mehta,2023;Qian,2024)、自然科学(Bran,2025;Kang&Kim,2023,Boiko,2026)和社会科学(Aher,2027;Akata,2028;Ma,2029;Dan,20210)。这些语言智体能够在真实世界或模拟环境中遵循语言指令并执行动作。如图展示了自主控制(Rawles et al.,2023;Jiang et al.,2022)、研究(Bran et al.,2021;Boiko et al.,2020)、编程(Bairi,2023)和交互(Park et al.,202)等智体的代表性应用场景。

现有智体的详细技术比较如表所示。 具体来说,将记忆模块分为两种主要类型: 短期记忆和长期记忆。 短期记忆本质上是动态的,可以通过提示轻松地读写。 最常见的短期记忆形式是聊天记录。 另一方面,长期记忆是静态的,通常存储在数据库中,可以通过各种检索方法访问,包括树搜索、文本搜索和矢量检索。 对于外部工具模块,将工具分为三种类型: Web搜索(Web)、代码解释器(Code)和其他工具(other)。

•与RL智体相比,语言智体有哪些新功能? 开发通用智能智体一直是人工智能研究的长期目标。 在早期阶段,对智体的研究主要是RL技术(Wilkins,2014; Mnih,2015)。 RL智体被训练通过与环境的迭代交互来做出决策,接收奖励或惩罚形式的反馈——正确的动作会得到奖励,而错误的动作会受到惩罚。 这个迭代过程旨在最大限度地减少错误并最大限度地做出准确的决策。 RL智体具有一个关键特性: 通过与环境的持续相互作用进行自我进化的能力(Bai,2023a)。 然而,RL智体面临一些限制。 其严重依赖专家数据,并为特定任务精心设计奖励函数。 因此,它们的有效性往往局限于单个任务,阻碍了对新任务或领域的泛化能力(Kim et al.,2023a)。 此外,RL智体的内部工作往往缺乏透明度和可解释性(Lundberg&Lee,2017; Yang,2018)。 相反,语言智体利用LLM中嵌入的常识先验与RL智体区分开来。 这些先验减少了对人工注释和试错学习的依赖,使其能够轻松适应新的任务或环境,并允许更好地利用CoT进行解释(Yao,2022; Shah,2023)。 然而,语言智体在响应环境变化而进化其参数方面面临挑战,主要是因为它们主要通过提示或微调LLM的高昂成本来适应环境。 虽然最近对语言智体的研究,如Retroformer(Yao et al.,2023b),已经结合了类似RL的策略来增强语言智体的能力,但重点仍然主要局限于语言推理任务。 它有望看到如何弥合RL代理和语言代理之间的差距,以促进未来的体系结构在复杂环境中以强大的性能和高可解释性工作。 考虑到RL智体和语言智体的优缺点,如下表提供更多详细信息。

从技术实践的角度总结语言智体的一般概念框架,如图所示: 给定用户指令(也称为目标),智体需要通过跨环境的多个交互步骤来完成任务,可能需要使用工具进行操作; 在不丧失通用性的情况下,在引入框架时将重点放在单个智体上。 值得注意的是,在多智体环境中,多智体可以相互合作或竞争。


智体骨干模型 。语言智体可以建立在单一模态LLM或多模态LLM上。完成一项任务通常需要多个交互步骤。整个过程被称为一集(episode),由一系列的转折组成。为了完成任务,智体需要提前规划,做出决定,并在每一集的转折点执行行动。规划、决策和行动执行的过程可以反映LLM的推理能力,因为LLM暴露在LLM预训练期间不存在的真实世界或虚拟环境中。在这种环境中,LLM必须感知世界的知识并采取行动,在这种情况下,CoT有助于弥合环境感知与LLM天生能力之间的差距。这样的智体扩展了语言模型的范围,在特定领域竞争,包括应用程序操作、网络搜索和网络购物。有两种流行的语言智体:自主和交际。自主智体的典型例子是AutoGPT(Richards,2023)、BabyAGI(Nakajima,2023)。相反,交际智体是具有人类行为的个性化和社会化智体,可以相互交流(Park et al.,2023;Wang,2023c;Zhu,2023)、合作(Hong et al.,2021;Qian2022)和辩论(Liang et al.,2020 3;Du2021 3;Xiong2023a)。它们通常部署在身临其境的环境中。

环境交互 。语言智体的一个内在特征是与环境交流、互动和进化。这样的环境包括操作系统、第三方应用程序、网页和虚拟环境。LLM使用两种方法处理环境,即环境解析和多模态感知,这取决于LLM是否有能力对多模态输入进行建模。环境解析是指利用OCR和图标检测器等外部工具(Zhang et al.,2021;Sunkara et al.,2022)将环境解析为文本元素(例如,HTML布局)作为LLM的输入方法。相比之下,多模态感知,也称为第一原理思维(Zhang&Zhang,2023),是指使用多模态LLM同时处理不同模态的输入。为了构建多模态LLM,一种流行的方法是使用简单的投影矩阵将预训练的大型视觉模型(例如,CLIP(Radford,2021)和BLIP-2(Li,2023c),集成到LLM中(Liu,2023b;Zhang,2023a)。最近的研究还探索了将不同模态的输入建模到同一向量空间中,从而导致任意-到-任意表示学习(Huang et al.,2023b;Wu et al.,2021;Moon et al.,202)和交织多模态表示学习(Li et al.,2020 3b;Zhao et al.,2022)。







请到「今天看啥」查看全文