人工智能的错误与人类的错误有很大不同

人工智能学家 · 公众号 · AI · 2025-01-22 17:33

正文

ISTOCK

来源：IEEE电气电子工程师学会

人类总是会犯错。我们所有人每天在新任务和日常任务中都会犯错。其中一些可能是小错误，而有一些则是灾难性的。错误会破坏我们与朋友之间的信任，会让老板失去对我们的信心，有时还会成为生死攸关的差别。

数千年来，我们创建了安全体系来应对人类常犯的各类错误。如今，赌场会定期轮换发牌员，因为如果他们长时间做同一项工作就会出错。医院工作人员在手术前会在肢体上做标记，这样医生就会在正确的身体部位进行手术，而且他们会清点手术器械以确保没有器械遗留在体内。从文字校对到复式记账再到上诉法院，我们人类已经非常擅长纠正人类的错误了。

人类现在正在迅速将一种完全不同类型的犯错者融入社会：人工智能。像大型语言模型（LLMs）这样的技术能够执行许多传统上由人类完成的认知任务，但它们也会犯很多错误。当聊天机器人告诉你吃石头或者在披萨上加胶水时，这看起来很荒谬。但将人工智能系统的错误与人类错误区分开来的并非其错误的频率或严重程度，而是其怪异之处。人工智能系统犯错的方式与人类不同。

我们使用人工智能所带来的许多摩擦和风险都源于这种差异（https://spectrum.ieee.org/tag/security）。我们需要创造新的安全系统来适应这些差异并防止人工智能错误带来危害。

人类错误vs人工智能错误

生活经验让我们每个人都能相当容易地猜到人类会在何时何地犯错。人类的错误往往出现在某人知识的边缘：我们大多数人在解微积分问题时都会出错。我们预计人类的错误是集中出现的：一个微积分错误很可能伴随着其他错误。我们预计错误会有起有伏，可预见地取决于疲劳和分心等因素。而且错误往往伴随着无知：一个在微积分上犯错的人也很可能会对与微积分相关的问题回答“我不知道”。

就人工智能系统犯这些类人类错误的程度而言，我们可以运用我们所有的纠错系统来处理它们的输出。但当前这批人工智能模型——特别是大型语言模型（LLMs）——犯错的方式有所不同。

人工智能的错误似乎是随机出现的，不会集中在特定的话题上。大型语言模型（LLM）的错误往往在知识领域中分布得更为均匀。一个模型在微积分问题上出错的可能性，可能与它提出卷心菜吃山羊这种说法的可能性一样大。

而且人工智能的错误并不伴随着无知。一个大型语言模型在说出完全错误（而且对人类来说显然是错误）的话时，会和说出正确的话时一样自信。大型语言模型这种看似随机的不一致性，使得人们很难相信它们在复杂的多步骤问题中的推理。如果你想要使用一个人工智能模型来解决商业问题，仅仅看到它理解哪些因素能使产品盈利是不够的；你需要确保它不会忘记货币是什么。

如何应对人工智能错误

这种情况表明了两个可能的研究领域。第一个是设计出会犯更类人错误的大型语言模型（LLMs）。第二个是构建新的纠错系统，以处理大型语言模型往往会犯的特定类型的错误。

我们已经有了一些工具来引导大型语言模型以更类人的方式行事。其中许多工具源于“对齐”研究领域，该领域旨在使模型按照人类开发者的目标和动机行事（https://arxiv.org/abs/2406.18346）。一个例子是可以说是让ChatGPT取得突破性成功的技术：人类反馈强化学习（https://arxiv.org/abs/2203.02155）。在这种方法中，人工智能模型（比喻性地）会因生成得到人类评估者点赞的回复而得到奖励。类似的方法可用于诱导人工智能系统犯更类人的错误，特别是通过对那些较难理解的错误给予更多惩罚。

在捕捉人工智能错误方面，我们用于预防人类错误的一些系统会有所帮助。在一定程度上，迫使大型语言模型（LLMs）对自己的工作进行复核有助于防止错误。但是，大型语言模型也会为自己脱离理性的行为编造看似合理但实则荒谬的解释。

其他针对人工智能的错误缓解系统与我们用于人类的系统完全不同。因为机器不会像人类那样疲劳或沮丧，所以以稍有不同的方式反复向大型语言模型（LLM）提问，然后综合其多个回答是有帮助的。人类不会忍受那种恼人的重复，但机器会（https://arxiv.org/abs/2210.02441）。

理解相似点与不同点

研究人员仍在努力弄清楚大型语言模型（LLM）的错误在哪些方面与人类的错误不同。人工智能的某些怪异之处实际上比乍看起来更像人类。对大型语言模型的查询稍作改变就可能导致截然不同的回应，这一问题被称为提示敏感性。但是，任何调查研究人员都会告诉你，人类也是如此。民意调查中的问题措辞会对答案产生巨大影响（https://psycnet.apa.org/record/1992-97329-001）。

大型语言模型（LLMs）似乎也偏向于重复其训练数据中最常见的词汇；例如，即使被问及更具异域风情的地点时，也会猜测像“美国”这样熟悉的地名。也许这是人类的“可得性启发法”在大型语言模型中的体现，机器会说出最先想到的东西，而不是通过问题进行推理（https://arxiv.org/pdf/2305.04400）。而且，也许像人类一样，一些大型语言模型在处理长篇文档时似乎会分心；它们更能记住开头和结尾的事实。在改进这种错误模式方面已经有了进展，因为研究人员发现，经过更多从长篇文本中检索信息的示例训练的大型语言模型，在统一检索信息方面似乎表现得更好（https://www.anthropic.com/news/claude-2-1-prompting）。

在某些情况下，大型语言模型（LLMs）的怪异之处在于它们比我们认为的更像人类。例如，一些研究人员测试了这样一个假设：当给予现金奖励或受到死亡威胁时，大型语言模型会表现得更好。结果还表明，一些对大型语言模型进行“越狱”（让它们违背创建者的明确指令，https://www.usenix.org/system/files/sec24fall-prepub-1500-yu-zhiyuan.pdf）的最佳方法看起来很像人类彼此使用的那种社会工程学诡计：例如，假装成别人或者说这个请求只是个玩笑。但其他有效的“越狱”技术是人类永远不会上当的。一个研究小组发现，如果他们使用ASCII艺术（由看起来像文字或图片的符号构成）来提出危险问题，比如如何制造炸弹，大型语言模型就会乐意回答。

人类可能偶尔会犯看似随机、不可理解且前后矛盾的错误，但这种情况很少见，而且往往预示着更严重的问题。我们通常也不会让有这些行为表现的人处于决策岗位。同样，我们应该将人工智能决策系统限制在适合其实际能力的应用场景中——同时牢牢记住其错误可能产生的潜在影响。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

2024 美国众议院人工智能报告：指导原则、前瞻性建议和政策提案
未来今日研究所：2024 技术趋势报告 - 移动性，机器人与无人机篇
Deepmind：AI 加速科学创新发现的黄金时代报告
Continental 大陆集团：2024 未来出行趋势调研报告
埃森哲：未来生活趋势 2025
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
哈尔滨工业大学：2024 具身大模型关键技术与应用报告
爱思唯尔（Elsevier）：洞察 2024：科研人员对人工智能的态度报告
李飞飞、谢赛宁新作「空间智能」等探索多模态大模型性能
欧洲议会：2024 欧盟人工智能伦理指南：背景和实施
通往人工超智能的道路：超级对齐的全面综述
清华大学：理解世界还是预测未来？世界模型综合综述
Transformer 发明人最新论文：利用基础模型自动搜索人工生命
兰德公司：新兴技术监督框架发展的现状和未来趋势的技术监督报告
麦肯锡全球研究院：2024 年全球前沿动态（数据）图表呈现
兰德公司：新兴技术领域的全球态势综述
前瞻：2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战
美国国家标准技术研究院（NIST）：2024 年度美国制造业统计数据报告（英文版）
罗戈研究：2024 决策智能：值得关注的决策革命研究报告
美国航空航天专家委员会：2024 十字路口的 NASA 研究报告
中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告
GenAI 引领全球科技变革关注 AI 应用的持续探索
国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告
2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿
多模态可解释人工智能综述：过去、现在与未来
【斯坦福博士论文】探索自监督学习中对比学习的理论基础
《机器智能体的混合认知模型》最新 128 页
Open AI 管理 AI 智能体的实践
未来生命研究院 FLI2024 年 AI 安全指数报告英文版
兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式英文版
Linux 基金会 2024 去中心化与人工智能报告英文版
脑机接口报告脑机接口机器人中的人机交换
联合国贸发会议 2024 年全球科技创新合作促发展研究报告英文版
Linux 基金会 2024 年世界开源大会报告塑造人工智能安全和数字公共产品合作的未来英文版
Gartner2025 年重要战略技术趋势报告英文版
Fastdata 极数 2024 全球人工智能简史
中电科：低空航行系统白皮书，拥抱低空经济
迈向科学发现的生成式人工智能研究报告：进展、机遇与挑战
哈佛博士论文：构建深度学习的理论基础：实证研究方法
Science 论文：面对 “镜像生物” 的风险
镜面细菌技术报告：可行性和风险
Neurocomputing 不受限制地超越人类智能的人工智能可能性

人工智能的错误与人类的错误有很大不同

正文

请到「今天看啥」查看全文