推理？别闹了！现在的 AI 仍然连小学数学题都搞不定！

AI范儿 · 公众号 · · 2024-10-16 12:21

正文

“

研究发现，尽管OpenAI和Google等公司强调其AI模型的推理能力，但苹果的研究表明，当前的大型语言模型（LLMs）在面对微小变化时，推理能力脆弱且不可靠。测试结果显示，模型依赖于模式匹配，而非真正的逻辑推理，揭示了其在复杂任务中的局限性。

最近，OpenAI 和 Google 等公司一直在宣传他们的人工智能（AI）模型在“推理”方面的先进能力，认为这是技术发展的重要一步。然而，苹果公司的六位工程师最近做的一项研究发现，这些大型语言模型（LLMs）在面对一些看似小的变化时， 其数学推理能力其实很脆弱，也不太可靠。

研究表明，LLMs并没有真正理解基本概念，而是通过匹配训练数据中的概率模式来工作。研究人员认为：“ 现在的LLMs并不具备真正的逻辑推理能力，它们只是模仿在训练中见过的推理步骤。 ”

在一篇名为《GSM-Symbolic: 理解大型语言模型数学推理的局限性》的论文中，这六位研究人员使用了一个标准化的数据集，里面有超过8000道小学级别的数学题，通常用来测试现代LLMs的推理能力。他们创新性地修改了测试数据，动态替换了一些名字和数字。例如，原本是索菲为侄子买31块积木的问题，可能改成比尔为兄弟买19块积木的问题。

这种方法可以避免直接使用原始问题造成的“数据污染”。同时，这些变化并没有改变问题的难度，因此模型在这个新的测试上表现应该与旧的测试相似。

简单地更改 GSM8K 测试中发现的特定名称和数字会导致许多型号的性能显著下降。来源：Apple Research

然而，当研究人员对超过20个先进的LLM进行测试时，发现这些模型的准确率普遍下降，下降幅度在0.3%到9.2%之间，具体取决于模型。结果显示，不同测试之间准确率变化很大，有的模型在最好的情况下和最差的情况下准确率相差15%。通常情况下，数字变化对准确率的影响更明显。

这种准确率的不稳定性让研究人员感到意外，他们指出：“解决问题的整体推理步骤是相同的。”然而，微小的变化却导致了结果的巨大差异， 说明这些模型并没有进行真正的推理，而只是通过匹配训练数据中的模式来解决问题。

尽管如此，整体的测试结果仍然相对稳定。例如，OpenAI 的 ChatGPT-4 在旧测试中的准确率是95.2%，而在新的测试中仍然是94.9%。无论模型是否在推理过程中使用了“正式”的逻辑，成功率都相当高（尽管在添加一两个额外的逻辑步骤时，许多模型的准确率会急剧下降）。

该示例展示了某些模型如何被添加到 GSM8K 基准测试套件中的不相关信息所误导。图片来源：苹果研究部

然而，当研究人员通过在问题中添加“看似相关但实际上无关紧要的细节”来修改测试时，LLM的表现更糟糕。例如，关于某人几天内采摘多少猕猴桃的问题，可能被修改为“其中有五个猕猴桃比较小”的细节。

这些额外的干扰项导致了与旧测试相比的“灾难性性能下降”，准确率下降幅度在17.5%到65.7%之间。这种大幅下降突显了通过简单的“模式匹配”来解决问题时的局限性，研究人员指出， 模型只是将问题转化为操作，而没有真正理解它们的含义。

例如，在猕猴桃的例子中，大多数模型试图从总数中减去较小的水果，研究人员推测，“它们的训练数据中包含了需要进行减法操作的相似示例。”这是研究人员所说的“关键缺陷”，显示了这些模型推理过程中的“更深层次问题”，这些问题无法通过微调或其他改进来解决。

这项新研究并不是AI研究界的首次发现。其他一些近期的研究同样表明， LLMs实际上并不执行正式推理，而是通过匹配训练集中最相似的数据来模拟推理。

不过，这项新研究强调了当提示模型走向与训练数据不完全匹配的方向时，这种模拟的脆弱性。同时，它也突显了在缺乏逻辑或背景知识的情况下进行高级推理的局限性。正如Ars的Benj Edwards在报道AI视频生成时所说：

OpenAI的GPT-4在文本合成方面受到关注，原因之一是该模型的规模足够大，能够吸收大量信息，从而让人感觉它能真正理解和建模世界。然而， 它成功的关键在于，它“知道”的信息远超过大多数人，能够通过新颖的方式组合这些现有概念来留下深刻印象。 随着更多的训练数据和计算能力，人工智能行业可能最终会达到一个被称为“理解的幻觉”的阶段，尤其是在AI视频合成方面……

我们可能在AI最新的“推理”模型中看到类似的“理解的幻觉”，并观察到当模型遇到意外情况时，这种幻觉是如何崩溃的。

AI专家Gary Marcus分析了这项新论文，指出人工智能能力的下一次重大飞跃只有在这些神经网络能够进行真正的“符号操作”时才会发生。在这种情况下，某些知识会以真正抽象的方式表示，涉及变量及其操作，就像我们在代数和传统计算机编程中看到的那样……在此之前，我们将继续看到这种脆弱的“推理”，这可能导致AI模型在数学测试中出现计算器从未经历过的失败。

本文原载于：https://arstechnica.com/ai/2024/10/llms-cant-perform-genuine-logical-reasoning-apple-researchers-suggest/，进行了翻译及部分修改。

往期推荐

o1 之后是什么？OpenAI 开启 L3 阶段研发，多智能体将成为新的战场！

大模型今起进入 o1 时代！OpenAI 取得重大进展，并决定从此放弃 GPT 品牌

推理？别闹了！现在的 AI 仍然连小学数学题都搞不定！

正文

请到「今天看啥」查看全文