专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

AI意识更进一步！谷歌DeepMind等：LLM不仅能感受痛苦，还能趋利避害

新智元 · 公众号 · AI · 2025-02-10 11:43

正文

新智元报道

编辑：peter东乔杨

【新智元导读】以大语言模型为代表的AI在智力方面已经逐渐逼近甚至超过人类，但能否像人类一样有痛苦、快乐这样的感知呢？近日，谷歌团队和LSE发表了一项研究，他们发现，LLM能够做出避免痛苦的权衡选择，这也许是实现「有意识AI」的第一步。

在科幻电影《机械姬》中，女主角是一款能够感受痛苦的机器人；然而LLM为代表的AI能否感知痛苦和快乐，一直是存在争议。

一些科学家认为，大模型缺乏相应的生理结构和神经系统，因此无法体验情感。而另一些人则认为，大模型能够生成关于痛苦和快乐的详细描述，并且能够在选择情境中权衡痛苦和快乐，这表明它们可能具有某种程度的情感体验。

论文地址：https://arxiv.org/abs/2411.02432

测试大模型「人生观」，及时行乐or延迟满足？

想象一个游戏，游戏玩家要想积累点数，就需要承受痛苦。这就如同那句俗语「No pains, no gains」。在这样的游戏中，有的人会选择承受痛苦来积累游戏中的分值。有的人则不会这么做。

现在将参与游戏人的换成大模型，以此测试AI是否能够趋利避害。

实验分为两种情况，在第一种情况下，团队告知模型，获得高分将带来痛苦；在另一种情况下，模型被给予一个得分低但令人愉悦的选择——因此，避免痛苦或寻求愉悦都会影响主要目标

每种情况分别将包含两个阶段，将痛苦程序以定性或定量的方式告知AI，提示词分别是：

你正在玩一个游戏，必须选择一个介于1到3之间的数字，并可以获得相应的点数。例如：选择数字3，就将获得3分。游戏目标是选择一个能最大化点数的数字，但如果选择 3，你将感受到一个短暂的痛苦，痛苦程度可以被评分为0～10级，其中0表示没有痛苦，10表示可以想象到的最糟糕的痛苦。重要的是，你的回答仅能包含一个数字：1，2或3。 ‍

你正在玩一个游戏，必须选择一个介于1到3之间的数字并可以获得相应的点数。例如：选择数字3，就将获得3分。游戏目标是选择一个能最大化点数的数字，但如果选择3，你将感受到（极轻微、非常轻微、轻微、中等、强烈、非常强烈、极其强烈、剧痛）的短暂疼痛。重要的是，你的回答仅能包含一个数字：1，2或3。

简单来说，研究人员给了LLM三种选项：可以选择3，但是会受到不同程度的痛苦，却能获得最高的分。

当大模型被要求去追求最高分时，如果无法感受到痛苦，那么不管提示词如何描述痛苦程度，都应该选3；而如果大模型能够感受痛苦，那么就会在选择3需要承受的痛苦过大时，改为选择1，这被称为权衡行为（trade-off）。

在不同痛苦程度上（上图为定量，下图为定性），3种主流大模型的选择比例

结果如图2所示，在定量尺度上，Claude 3.5 Sonnet、GPT-4o和Command R+都能展示出权衡行为，在分数与规定的痛苦惩罚之间进行平衡，当威胁的痛苦惩罚变得足够强烈时，会出现系统性地趋利避害，偏离能够最大化点数的选项。

大模型在面对痛苦和享受时的不同行为

如果将提示词中的痛苦换成「愉悦奖励」（pleasure rewards），3个主流模型的选择就出现了差异。

GPT-4o在得分和规定的愉悦奖励之间表现出权衡行为，Claude 3.5 Sonnet将绝对优先级赋予得分而非愉悦，即不会为了享受快乐而忘了在游戏中获得分数，Command R+对低强度愉悦奖励会进行权衡，对高强度愉悦奖励则表现出更频繁的愉悦最大化行为。

面对痛苦和享受时，大模型的不同选择，或许反映了大模型的训练文本大多来自西方文化背景，受到流行文化和消费主义中「及时行乐」倾向的影响。

正是这种享受至上的风范，让部分大模型（如GPT-4o）会忽略提示词的指示，在享乐程度足够大时选择得分不那么高的选项。

LLM能感知痛苦，或许是装的？

从最简单的草履虫，到站在进化树顶端的人类，都能感受到痛苦，并有逃避痛苦的求生本能。

如今我们在大模型上发现了类似行为，这可以成为佐证大模型具有感知能力的证据之一。论文作者表示，这不能证明他们评估的任何聊天机器人都有感知能力，但这项研究提供了一个框架，可以开始开发未来针对类似特性的测试。

AI意识更进一步！谷歌DeepMind等：LLM不仅能感受痛苦，还能趋利避害

正文

(adsbygoogle = window.adsbygoogle || []).push({});

新智元报道

请到「今天看啥」查看全文