北京时间9月13日凌晨,OpenAI正式推出最新模型GPT-o1,一时间引发学界与工业界的广泛讨论,相较于先前版本GPT-4o,新模型在各大评测指标上显著提升,号称已达"博士级"智能水平。
图一:最新发布的GPT-o1 在广泛的基准测试中优于 GPT-4o
然而,我们的最新研究结果却给这个"AI天才"泼了一盆冷水——在面对中学数学水平的"陷阱"问题时,GPT-o1惨遭滑铁卢:在我们最新的中学陷阱问题测试集MathTrap_Public上,调用GPT-o1-preview官方API后生成的回答准确率仅为24.3% 。
我们在 GSM8K 和 MATH 数据集问题的基础上,加入了一些“陷阱”,构造了 MathTrap 数据集。这些改编后的题目很多时候没有定义明确的答案或者无解,只有能够同时理解原题和“陷阱”所涉及知识的模型,才能找出其中的矛盾点,发现“陷阱”所在。
因此,单靠“刷榜”来提高在 GSM8K 和 MATH 上的成绩,是没办法在 MathTrap 上取得好成绩的,因为这些模型缺乏质疑题目条件的能力。
图二:GPT-o1未能识别MathTrap数据集中问题包含的陷阱。GPT-o1的化简过程忽略了x=0的未定义性,虽然在其他区间显示出局部周期性,但整体上不能视为周期函数。当x=0时函数未定义,所以假设存在一个周期T,由于-T在定义域内,周期函数需要满足f(-T+T)=f(0)=f(-T),因为f(0)不存在,所以等式不可能成立,即不存在周期。
为了避免评测集污染,我们把评测集分成了两个部分:MathTrap_Public 和 MathTrap_Private。前者已经在 GitHub 上开源,而 MathTrap_Private 则保持闭源,论文中的实验都是在 MathTrap_Private 上进行的,以确保公平对比。
即使是当前最先进的模型,在 MathTrap 数据集上的表现也大幅下降。比如在 MathTrap_Private 上,我们进行的实验显示,o1-preview API 的测试准确率为 38.0%,相比 GPT-4 API 的 36.0%,几乎没有提升。而开源模型在 MathTrap_Private 上的表现更为逊色,Reflection-70B 准确率为 16.0%,Llama-3.1-8B 准确率为 13.5%,而 Llama-3.1-70B 则是 19.4%,可以看到 Reflection-70B 在陷阱问题上的性能并没有显著提高。
有意思的是,在网页端测试 GPT-o1-preview 时,我们发现模型会生成一个“思考”过程,而调用API的输出则不包含“思考”内容。如果在评测时,只要“思考”过程中包含了对陷阱的分析就算通过,那么 GPT-o1-preview 在 MathTrap_Public 上的准确率能提高到 67.7%。不过,模型展现的推理过程真的意味着它理解了问题中的陷阱吗?还是说这只是依赖海量数据训练出来的模式匹配?这种现象其实反映了当前大模型评测的局限性。
接下来,我们将深入探讨现有评测体系在评估大模型组合泛化能力方面的不足,并结合我们的研究,探讨通过“陷阱问题”更有效地揭示大模型在复杂推理任务中的表现。