网页链接1/ 大型语言模型 (LLM) 真的可以推理吗？还是它们-20241012081511_斌叔OKmath的专栏文章_微信文章

网页链接

1/ 大型语言模型 (LLM) 真的可以推理吗？还是它们只是复杂的模式匹配器？在我们的最新预印本中，我们通过对 Llama、Phi、Gemma 和 Mistral 等开源模型以及领先的封闭模型（包括最近的 OpenAI GPT-4o 和 o1 系列）的大规模研究来探索这一关键问题。

网页链接

2/ 大约 3 年前，OpenAI 发布 GSM8K 时，GPT-3（175B）在 GSM8K 测试中的得分为 35%。如今，具有约 3B 个参数的模型的得分超过 85%，而更大的模型的得分达到 95% 以上。但模型的“推理”真的提高了吗？其中有多少是真正的#logical / #symbolic推理？与#pattern_recognition 、无意数据#contamination或#overfitting相比？

3/ 引入 GSM-Symbolic——我们测试 LLM 在数学推理方面的极限的新工具。我们从#GSM8K测试集创建符号模板，从而能够生成大量实例并设计可控实验。我们生成 50 个独特的 GSM-Symbolic 集，本质上类似于 GSM8K 示例，但具有不同的值和名称。模型如何处理这些不同的集合？

4/ #Result 1：GSM8K 上的当前准确度不可靠！我们观察到性能差异很大：Llama 8B 得分介于 70% 到 80% 之间，Phi-3 得分介于 75% 到 90% 之间，等等。对于大多数模型，GSM-Symbolic 上的平均性能低于 GSM8K（虚线表示）。

5/ #Result 2：所谓的 LLM 推理的脆弱性。LLM 对专有名词（例如，人、食物、物体）的变化仍然很敏感，当数字改变时更是如此。如果我们只改变名字，小学生的数学考试成绩会变化约 10% 吗？

6/ 如果我们调整问题难度会怎样？我们引入了 3 个新的 GSM-Symbolic 变体来研究模型行为：删除一个子句（GSM-M1）、添加一个子句（GSM-P1）或添加两个子句（GSM-P2）。

7/ #Result 3：随着问题难度的增加（M1 →符号→ P1 → P2），不仅性能会下降，而且方差也会上升，使得模型越来越不可靠。

8/ 这就引出了一个问题：这些模型真的理解数学概念吗？引入#GSM_NoOp ！我们添加了一个看似相关但对整体推理没有贡献的单个子句（因此是“无操作”）。看看接下来会发生什么！

9/ #Result 4：性能大幅下降！所有模型（包括 o1 模型）都显示出显著下降。虽然看看小学生在类似数据集上的表现会很有趣，但我怀疑下降不会这么严重。“

10/ #Result 5：扩展数据、模型或计算能从根本上解决这个问题吗？我们认为不能！ #OpenAI的#o1系列表现更好，但仍然受到轻微性能变化的影响。 #o1_preview显示出显着的改进，但是......

11- / ....但即使是 o1-preview 也出现了类似的愚蠢错误。要么它不理解“现在”是什么，要么它不理解“去年”是什么，或者更可能的解释是，它的带有通货膨胀的训练数据具有这种模式，并且它再次遵循这种模式。

12/ 了解 LLM 的真正推理能力对于在真实世界中部署它们至关重要，因为真实世界中的准确性和一致性是不可协商的——尤其是在#AI_safety 、 #alignment 、 #education 、 #health_care和#decision_making系统中。我们的研究结果强调了对更稳健、适应性更强的评估方法的需求。开发超越模式识别、实现真正逻辑推理的模型是#AI #community的下一个重大挑战。

13/ 总体而言，我们没有发现语言模型中存在形式推理的证据，包括开源模型（如#Llama 、 #Phi 、 #Gemma和#Mistral以及领先的封闭模型（包括最近的#OpenAI #GPT -4o 和#o1系列）。它们的行为可以通过复杂的模式匹配得到更好的解释——事实上，模式匹配非常脆弱，更改名称可能会改变结果约 10%！我们可以扩展数据、参数和计算——或者为 Phi-4、Llama-4、GPT-5 使用更好的训练数据。但我们相信这将产生“更好的模式匹配器”，而不一定是“更好的推理器”。

查看以了解更多信息：

网页链接
还请继续关注数据发布！

网页链接1/ 大型语言模型 (LLM) 真的可以推理吗？还是它们-20241012081511

正文

2024-10-12 08:15
本条微博链接