专栏名称: 图灵人工智能
人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。
目录
相关文章推荐
小易说钱  ·  【今日蛇价】还在跌!蛇币蛇钞价格新低 ·  1 周前  
小易说钱  ·  蛇币蛇钞全面崩盘?300万张遭弃兑! ·  1 周前  
纪念币预约信息  ·  开始预约!春节喜庆银章!上海造币发行! ·  1 周前  
纪念币预约信息  ·  蛇年纪念币钞年后二次预约!仅30万人能成功! ·  1 周前  
51好读  ›  专栏  ›  图灵人工智能

AI 推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理

图灵人工智能  · 公众号  ·  · 2024-10-20 11:01

正文

点击上方“图灵人工智能”,选择“星标”公众号

您想知道的人工智能干货,第一时间送达

                         


为了测试 LLM 的数学推理能力的极限,Farajtabar 和他的团队开发了一个名为 GSM-Symbolic 的新工具,它可以根据 GSM8K 测试集创建符号模板,从而能够生成大量实例并设计可控实验。他们生成了 50 个独特的 GSM-Symbolic 集合,这些集合本质上就像 GSM8K 示例,但具有不同的值和名称

2.所谓的 LLM 推理能力不堪一击! LLM 对专有名词和数字的更改非常敏感,这说明它们并没有真正理解数学概念。就像一个小学生,如果我们只是更改了数学测试题中的人名,他的分数就会下降 10% 吗?显然不会

3.随着问题难度的增加 (M1 → Symbolic → P1 → P2)。引入了 GSM-Symbolic 的三个新变体来研究模型行为:删除一个分句(GSM-M1)、增加一个分句(GSM-P1)或增加两个分句(GSM-P2),模型的性能下降,方差上升, 这意味着模型的可靠性越来越差

4.引入 GSM-NoOp 后,模型性能断崖式下跌! GSM-NoOp 是在 GSM-Symbolic 的基础上,添加了一个看似相关但不影响整体推理的子句。所有模型,包括 o1 模型,都表现出了显著的性能下降。这说明,即使是强大的 o1 模型,也无法真正理解数学问题的逻辑结构

5.即使是 OpenAI 的 o1 系列模型,也无法完全避免这些问题。 o1-preview 虽然有所改进,但仍然会犯一些低级错误,例如无法理解“现在”和“去年”的区别,这可能是因为训练数据中包含了“通货膨胀”的模式,模型只是简单地模仿了这种模式

Farajtabar 认为,


版权声明


转自AI寒武纪, 版权属于原作者,仅用于学术分享


文章精选:

1.图灵奖和诺贝尔奖双料得主——辛顿和西蒙:研究领域、学术成就及启发
2.图灵奖得主辛顿:我的五十年深度学习生涯与研究心法
3.Yann LeCun最新万字演讲:致力于下一代AI系统,我们基本上不做LLM了
4.诺奖得主AI教父Hinton与AI教母李飞飞首次公开对谈:我们已经发现了永生的秘密!如果智能变得比我们聪明很多,我们是无法阻止的
5.ChatGPT 向通用意识机器进化的关键——自指的启示
6.图灵奖得主Yann LeCun不看好强化学习:「我确实更喜欢 MPC」
7.如何解读 图灵奖得主Yann LeCun推文建议学生不要在大模型方向工作?
8.为何诺贝尔化学奖又颁给AI?万字专题详解:计算和人工智能颠覆我们对蛋白质的理解方式