专栏名称: 图灵人工智能

人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。

AI 推理能力大“翻车”！苹果最新论文：LLM只是复杂的模式匹配，而不是真正的逻辑推理

图灵人工智能 · 公众号 · · 2024-10-20 11:01

正文

点击上方“图灵人工智能”，选择“星标”公众号

您想知道的人工智能干货，第一时间送达

为了测试 LLM 的数学推理能力的极限，Farajtabar 和他的团队开发了一个名为 GSM-Symbolic 的新工具，它可以根据 GSM8K 测试集创建符号模板，从而能够生成大量实例并设计可控实验。他们生成了 50 个独特的 GSM-Symbolic 集合，这些集合本质上就像 GSM8K 示例，但具有不同的值和名称

2.所谓的 LLM 推理能力不堪一击！ LLM 对专有名词和数字的更改非常敏感，这说明它们并没有真正理解数学概念。就像一个小学生，如果我们只是更改了数学测试题中的人名，他的分数就会下降 10% 吗？显然不会

3.随着问题难度的增加 (M1 → Symbolic → P1 → P2)。引入了 GSM-Symbolic 的三个新变体来研究模型行为：删除一个分句（GSM-M1）、增加一个分句（GSM-P1）或增加两个分句（GSM-P2），模型的性能下降，方差上升， 这意味着模型的可靠性越来越差