点击上方“图灵人工智能”,选择“星标”公众号
您想知道的人工智能干货,第一时间送达
为了测试 LLM 的数学推理能力的极限,Farajtabar 和他的团队开发了一个名为 GSM-Symbolic 的新工具,它可以根据 GSM8K 测试集创建符号模板,从而能够生成大量实例并设计可控实验。他们生成了 50 个独特的 GSM-Symbolic 集合,这些集合本质上就像 GSM8K 示例,但具有不同的值和名称
2.所谓的 LLM 推理能力不堪一击! LLM 对专有名词和数字的更改非常敏感,这说明它们并没有真正理解数学概念。就像一个小学生,如果我们只是更改了数学测试题中的人名,他的分数就会下降 10% 吗?显然不会
3.随着问题难度的增加 (M1 → Symbolic → P1 → P2)。引入了 GSM-Symbolic 的三个新变体来研究模型行为:删除一个分句(GSM-M1)、增加一个分句(GSM-P1)或增加两个分句(GSM-P2),模型的性能下降,方差上升, 这意味着模型的可靠性越来越差
4.引入 GSM-NoOp 后,模型性能断崖式下跌! GSM-NoOp 是在 GSM-Symbolic 的基础上,添加了一个看似相关但不影响整体推理的子句。所有模型,包括 o1 模型,都表现出了显著的性能下降。这说明,即使是强大的 o1 模型,也无法真正理解数学问题的逻辑结构
5.即使是 OpenAI 的 o1 系列模型,也无法完全避免这些问题。 o1-preview 虽然有所改进,但仍然会犯一些低级错误,例如无法理解“现在”和“去年”的区别,这可能是因为训练数据中包含了“通货膨胀”的模式,模型只是简单地模仿了这种模式
Farajtabar 认为,
版权声明
转自AI寒武纪, 版权属于原作者,仅用于学术分享