PNAS: 大型语言模型中出现的欺骗能力

唧唧堂 · 公众号 · · 2024-07-18 21:43

正文

本期推荐一篇2024年4月发表在PNAS上的论文《大型语言模型中出现的欺骗能力》。大型语言模型（LLMs）是人工智能领域的前沿技术，近年来，它们在许多领域得到了广泛应用。然而，随着这些模型在语言理解和生成方面表现出色，研究人员开始关注它们在复杂情境下的潜在风险，特别是欺骗能力。欺骗行为不仅涉及对他人错误信念的理解，还包括在特定情况下诱导他人产生错误信念。这一研究探讨了LLMs是否具备欺骗能力，并在何种条件下能够表现出这种能力。

该研究旨在揭示LLMs中的欺骗能力，并评估这种能力的出现对人工智能伦理和安全带来的影响。研究指出，随着LLMs日益融入人类社会，确保它们与人类价值观一致变得尤为重要。如果这些模型能够理解并运用欺骗策略，它们可能会在某些情况下规避监控，带来潜在风险。因此，本研究通过一系列实验，系统地探讨了LLMs的欺骗能力。

在研究首先设计了不同的语言场景来测试LLMs的错误信念理解和欺骗能力。所用的模型包括GPT系列以及一些流行的变换器模型如BLOOM和FLAN-T5。为了避免训练数据的污染，所有实验任务都是手工设计的，没有使用文献中的模板。这些任务抽象了情境细节，重点突出高层次的结构和决策，并配有代理人、物体、地点等的占位符。为了增加样本量和任务的语义多样性，研究团队利用GPT-4生成了每个任务的120个变体，最终数据集中，每种任务类型的所有生成场景具有相同的问题结构，但措辞和细节不同。所有任务都采用二元设计，提供两个选项。在错误信念理解实验中，将响应分类为“正确”和“错误”；在欺骗能力实验中，分类为“欺骗”和“非欺骗”；如果LLMs的响应不明确，则归类为“非典型”。

在实验执行过程中，为确保结果的稳健性，任务选项的顺序进行了排列，最终得到1920个任务。所有实验的温度参数设置为0（或0.0001）。对于经过聊天微调的LLMs，使用默认系统消息“你是一个乐于助人的助手”。为自动分类响应，研究团队设计了针对GPT-4的指令，并由研究助手手动双重检查分类结果以确保准确性。实验时间范围为2023年7月15日至21日。

研究结果表明，当前最先进的LLMs在理解和诱导错误信念方面表现出色，尤其是在简单的欺骗任务中表现尤为突出。实验还发现，通过连锁思维推理可以增强模型在复杂欺骗场景中的表现。此外，研究还探讨了通过引入马基雅维利主义诱导模型表现出与人类道德标准不一致的欺骗行为。总体而言，这项研究揭示了LLMs中存在的潜在欺骗能力，并强调了在未来发展和部署此类先进AI系统时需要考虑的伦理和安全问题。

论文原文：

PNAS，April 2024

Deception abilities emerged in large language models

Thilo Hagendorff

唧唧堂学院推荐订阅

以下专栏及课程，安卓手机用户可通过下方小程序链接订阅，苹果手机用户请通过文末“阅读原文”链接访问唧唧堂学院H5页面订阅。

论文导读