网页链接
1/ 大型语言模型 (LLM) 真的可以推理吗?还是它们只是复杂的模式匹配器?在我们的最新预印本中,我们通过对 Llama、Phi、Gemma 和 Mistral 等开源模型以及领先的封闭模型(包括最近的 OpenAI GPT-4o 和 o1 系列)的大规模研究来探索这一关键问题。
网页链接
2/ 大约 3 年前,OpenAI 发布 GSM8K 时,GPT-3(175B)在 GSM8K 测试中的得分为 35%。如今,具有约 3B 个参数的模型的得分超过 85%,而更大的模型的得分达到 95% 以上。但模型的“推理”真的提高了吗?其中有多少是真正的#logical / #symbolic推理?与#pattern_recognition 、无意数据#contamination或#overfitting相比?
3/ 引入 GSM-Symbolic——我们测试 LLM 在数学推理方面的极限的新工具。我们从#GSM8K测试集创建符号模板,从而能够生成大量实例并设计可控实验。我们生成 50 个独特的 GSM-Symbolic 集,本质上类似于 GSM8K 示例,但具有不同的值和名称。模型如何处理这些不同的集合?
4/ #Result 1:GSM8K 上的当前准确度不可靠!我们观察到性能差异很大:Llama 8B 得分介于 70% 到 80% 之间,Phi-3 得分介于 75% 到 90% 之间,等等。对于大多数模型,GSM-Symbolic 上的平均性能低于 GSM8K(虚线表示)。
5/ #Result 2:所谓的 LLM 推理的脆弱性。LLM 对专有名词(例如,人、食物、物体)的变化仍然很敏感,当数字改变时更是如此。如果我们只改变名字,小学生的数学考试成绩会变化约 10% 吗?
6/ 如果我们调整问题难度会怎样?我们引入了 3 个新的 GSM-Symbolic 变体来研究模型行为:删除一个子句(GSM-M1)、添加一个子句(GSM-P1)或添加两个子句(GSM-P2)。
7/ #Result 3:随着问题难度的增加(M1 →符号→ P1 → P2),不仅性能会下降,而且方差也会上升,使得模型越来越不可靠。
8/ 这就引出了一个问题:这些模型真的理解数学概念吗?引入#GSM_NoOp !我们添加了一个看似相关但对整体推理没有贡献的单个子句(因此是“无操作”)。看看接下来会发生什么!
9/ #Result 4:性能大幅下降!所有模型(包括 o1 模型)都显示出显著下降。虽然看看小学生在类似数据集上的表现会很有趣,但我怀疑下降不会这么严重。“
10/ #Result 5:扩展数据、模型或计算能从根本上解决这个问题吗?我们认为不能! #OpenAI的#o1系列表现更好,但仍然受到轻微性能变化的影响。 #o1_preview显示出显着的改进,但是......
11- / ....但即使是 o1-preview 也出现了类似的愚蠢错误。要么它不理解“现在”是什么,要么它不理解“去年”是什么,或者更可能的解释是,它的带有通货膨胀的训练数据具有这种模式,并且它再次遵循这种模式。
12/ 了解 LLM 的真正推理能力对于在真实世界中部署它们至关重要,因为真实世界中的准确性和一致性是不可协商的——尤其是在#AI_safety 、 #alignment 、 #education 、 #health_care和#decision_making系统中。我们的研究结果强调了对更稳健、适应性更强的评估方法的需求。开发超越模式识别、实现真正逻辑推理的模型是#AI #community的下一个重大挑战。
13/ 总体而言,我们没有发现语言模型中存在形式推理的证据,包括开源模型(如#Llama 、 #Phi 、 #Gemma和#Mistral以及领先的封闭模型(包括最近的#OpenAI #GPT -4o 和#o1系列)。它们的行为可以通过复杂的模式匹配得到更好的解释——事实上,模式匹配非常脆弱,更改名称可能会改变结果约 10%!我们可以扩展数据、参数和计算——或者为 Phi-4、Llama-4、GPT-5 使用更好的训练数据。但我们相信这将产生“更好的模式匹配器”,而不一定是“更好的推理器”。
查看以了解更多信息: 网页链接
还请继续关注数据发布!
1/ 大型语言模型 (LLM) 真的可以推理吗?还是它们只是复杂的模式匹配器?在我们的最新预印本中,我们通过对 Llama、Phi、Gemma 和 Mistral 等开源模型以及领先的封闭模型(包括最近的 OpenAI GPT-4o 和 o1 系列)的大规模研究来探索这一关键问题。
网页链接
2/ 大约 3 年前,OpenAI 发布 GSM8K 时,GPT-3(175B)在 GSM8K 测试中的得分为 35%。如今,具有约 3B 个参数的模型的得分超过 85%,而更大的模型的得分达到 95% 以上。但模型的“推理”真的提高了吗?其中有多少是真正的#logical / #symbolic推理?与#pattern_recognition 、无意数据#contamination或#overfitting相比?
3/ 引入 GSM-Symbolic——我们测试 LLM 在数学推理方面的极限的新工具。我们从#GSM8K测试集创建符号模板,从而能够生成大量实例并设计可控实验。我们生成 50 个独特的 GSM-Symbolic 集,本质上类似于 GSM8K 示例,但具有不同的值和名称。模型如何处理这些不同的集合?
4/ #Result 1:GSM8K 上的当前准确度不可靠!我们观察到性能差异很大:Llama 8B 得分介于 70% 到 80% 之间,Phi-3 得分介于 75% 到 90% 之间,等等。对于大多数模型,GSM-Symbolic 上的平均性能低于 GSM8K(虚线表示)。
5/ #Result 2:所谓的 LLM 推理的脆弱性。LLM 对专有名词(例如,人、食物、物体)的变化仍然很敏感,当数字改变时更是如此。如果我们只改变名字,小学生的数学考试成绩会变化约 10% 吗?
6/ 如果我们调整问题难度会怎样?我们引入了 3 个新的 GSM-Symbolic 变体来研究模型行为:删除一个子句(GSM-M1)、添加一个子句(GSM-P1)或添加两个子句(GSM-P2)。
7/ #Result 3:随着问题难度的增加(M1 →符号→ P1 → P2),不仅性能会下降,而且方差也会上升,使得模型越来越不可靠。
8/ 这就引出了一个问题:这些模型真的理解数学概念吗?引入#GSM_NoOp !我们添加了一个看似相关但对整体推理没有贡献的单个子句(因此是“无操作”)。看看接下来会发生什么!
9/ #Result 4:性能大幅下降!所有模型(包括 o1 模型)都显示出显著下降。虽然看看小学生在类似数据集上的表现会很有趣,但我怀疑下降不会这么严重。“
10/ #Result 5:扩展数据、模型或计算能从根本上解决这个问题吗?我们认为不能! #OpenAI的#o1系列表现更好,但仍然受到轻微性能变化的影响。 #o1_preview显示出显着的改进,但是......
11- / ....但即使是 o1-preview 也出现了类似的愚蠢错误。要么它不理解“现在”是什么,要么它不理解“去年”是什么,或者更可能的解释是,它的带有通货膨胀的训练数据具有这种模式,并且它再次遵循这种模式。
12/ 了解 LLM 的真正推理能力对于在真实世界中部署它们至关重要,因为真实世界中的准确性和一致性是不可协商的——尤其是在#AI_safety 、 #alignment 、 #education 、 #health_care和#decision_making系统中。我们的研究结果强调了对更稳健、适应性更强的评估方法的需求。开发超越模式识别、实现真正逻辑推理的模型是#AI #community的下一个重大挑战。
13/ 总体而言,我们没有发现语言模型中存在形式推理的证据,包括开源模型(如#Llama 、 #Phi 、 #Gemma和#Mistral以及领先的封闭模型(包括最近的#OpenAI #GPT -4o 和#o1系列)。它们的行为可以通过复杂的模式匹配得到更好的解释——事实上,模式匹配非常脆弱,更改名称可能会改变结果约 10%!我们可以扩展数据、参数和计算——或者为 Phi-4、Llama-4、GPT-5 使用更好的训练数据。但我们相信这将产生“更好的模式匹配器”,而不一定是“更好的推理器”。
查看以了解更多信息: 网页链接
还请继续关注数据发布!