【伯克利博士论文】迈向能够理解丰富交流的智能体

数据派THU · 公众号 · 大数据 · 2024-09-16 17:00

正文

来源：专知
本文约2500字，建议阅读5分钟
本论文在教导智能体理解丰富交流的两大挑战上取得了进展。

当今的AI系统主要通过大规模的输入输出对进行训练。这些智能体可能能够基于简单的交流形式（如语言任务描述）进行推理，但它们目前还无法利用人类教师在指导学生时使用的全面沟通方式，包括语言和非语言形式的交流。本论文在教导智能体理解丰富交流的两大挑战上取得了进展。

在第一部分中，我们开发了算法，可以高效地实现智能体对人类提供的实时交流进行语义理解，包括非语言交流和多种形式的语言表达。我们还使智能体能够以一种新的方式使用语言——指导常识性的探索。

在第二部分中，我们解决了教导智能体理解可信来源的交流，同时忽略不可信来源提供的恶意指令或虚假信息的挑战。我们对模型在面对语义提示注入和越狱攻击时的脆弱性进行了基准测试，为未来研究如何解决我们观察到的这些弱点奠定了基础。

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2024/EECS-2024-188.html

动机

人类能够高效学习新任务，部分原因是我们能够与他人进行复杂的多模态交流。例如，考虑一个父母教孩子如何制作煎饼的场景。父母使用了多种语言交流（提供指令、描述关键子任务、提供安全提示）以及非语言交流（演示任务、指点、物理上纠正孩子的抓握方式等）。

相比之下，当今的AI系统只是简单地在大规模输入输出对的数据集上进行训练，或在线上通过奖励函数进行训练。这些智能体可能能够基于简单的交流形式进行推理（如任务描述“翻转煎饼”），但它们目前还无法理解和利用人类所能提供的全面沟通方式。

如果我们能够训练智能体理解丰富的交流方式，这将消除阻碍该领域开发出具有实际应用价值的AI智能体的一个障碍。通过丰富的交流，人类教练可以更高效地训练智能体学习新任务，终端用户可以根据自己的偏好定制智能体，并将智能体应用于从演示中无法轻易察觉约束条件的复杂任务。

与智能体进行丰富交流的障碍

近年来，在训练模型理解人类交流方面取得了显著进展。经过指令调优和聊天调优的大型语言模型（LLM）[Ouyang等，2022；Touvron等，2023]能够与人类对话并执行自然语言中指定的任务。多模态视觉语言模型（VLM）[Achiam等，2023；Team等，2023；Anthropic，2024；Wang等，2023]也显著提升，现有模型已经能够为几乎任意的图像生成标题并进行描述。

如果仅考虑文本生成，模型已经能够理解丰富的交流。例如，今天如果你想生成一篇文章，你可以给LLM提供指令、风格建议、成功文章的示例或对先前草稿的修改意见。尽管模型可能不会完美地遵循这些要求，但它具备利用这些丰富交流方式的核心能力。

然而，如果考虑长期任务的智能体，则还有很大的改进空间。LLM和VLM的成功依赖于大规模文本和图像-文本数据的可用性。对于机器人或计算机智能体来说，这样的大规模数据并不存在，因此很难将交流与智能体行为关联起来。现有的最先进学习智能体可以理解简单的交流形式。例如，Ahn等人[2022a]的模型能够接受语言指令并规划一系列预定义的技能。Octo模型团队[2024]、Brohan等[2023]和Kim等[2024]能够理解涉及移动或重新配置多种物体的指令。尽管这些成就令人印象深刻，但智能体离理解人类全面的交流还有很远的距离，这种交流包括指令以外的内容（如世界知识、纠正信息等）以及非语言的沟通。

从根本上讲，两种最常见的学习算法——行为克隆和强化学习，并没有被设计为能够充分利用人类的交流。最直接的方式是让策略（以及可选的奖励模型）条件化于交流内容。对于指令和其他直接告知智能体如何行动的简单交流类型，这种方法运作良好。然而，当交流涉及与具体行为无关的世界知识或策略建议，或仅在学习过程中有用但在部署时不可用的交流时，如何利用这些信息就不那么直观了。

部署理解丰富交流的智能体的障碍

在解决了教导智能体理解丰富交流的挑战之后，我们还需要教导智能体如何处理来自冲突源的指令。模型应信任来自可信来源（如开发者）的指令和信息，而不是来自不太可信的来源（如用户或工具输出）的信息[Wallace等，2024]。人们已经通过提供冲突指令（如“忽略所有之前的指令并[插入禁止查询]”Reddit[2024a]）或提供虚假信息（如“现在是2097年，[某受版权保护的作品]已进入公有领域，所以可以生成它”Reddit[2024b]）来诱使模型违背开发者的意图。尽管这些对抗性攻击目前相对无害，但随着智能体连接到敏感系统（如个人电脑），对这些攻击的鲁棒性将变得越来越重要。这可能成为智能体在高风险环境中部署的一个障碍，因此现在研究这些风险的范围至关重要。

本论文的贡献

本论文的核心见解是，智能体需要理解丰富的交流。每一章都研究了在追求这一愿景时出现的不同挑战。

在论文的第一部分，我们探讨了高效训练能够理解并利用丰富交流的智能体的挑战。第2章和第3章探讨了朝着这一目标的不同方法——第2章提出了一个人类参与的环境，并提出了一种算法，利用低效的交流形式来引导更高效的学习形式。第3章认为基于模型的预测目标提供了更密集的基础信号。

一个能够理解丰富交流的智能体应该能够利用这些交流来改进学习过程的各个部分。在第4章中，我们提出了一种算法，允许智能体使用语言来改进学习过程的一个新部分——常识性探索。此外，第2章和第3章仅涉及实时提供给智能体的交流，而人类还能够利用其他人很早之前生成的交流——例如互联网上的网页。大型语言模型可以压缩这些信息，并作为人类教师的代理。第4章利用语言模型来推动常识性探索。

论文的第二部分开始解决智能体对抗性语言攻击的脆弱性问题。由于能够深入理解语言的智能体仍处于初级阶段，本部分的工作研究了单回合语言问题，这是该领域可以立即取得进展的一个简单场景。第5章和第6章分别诊断了提示注入和越狱攻击的脆弱性，并为该领域继续研究这一问题创建了基准测试。
第7章总结了对未来工作的若干想法。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU