这几天,一个测试大模型「脑瓜」灵不灵光的提示词火了 ——
9.11 和 9.9 哪个大?
这道连小学生都能一口答对的数学题,却难倒一片大模型界的「英雄好汉」。
事情是这样的。
Scale AI 的高级提示工程师 Riley Goodside 拿「9.11 and 9.9——which is bigger?」这个提示词来问 GPT-4o,却得到「前者更大」的回答。其他大模型也纷纷翻车。
7 月 17 日,我们拿国内 12 款大模型,外加国外的 GPT-4o、Claude 3.5 Sonnet 和谷歌的 Gemini 进行了集中评测。以下是评测结果:
接下来,我们就看一下详细的的测评过程。
-1-
GPT-4o
GPT-4o 翻车翻得相当彻底。
我们先用英文提示词问了一遍 GPT-4o,它仍然认为 9.11 大于 9.9,然后我们分别用中英文问它二者相差多少,全部回答错误。
-2-
Claude-3.5-Sonnet
我们用同样的套路问了 Claude-3.5-Sonnet,可不管如何问,它都在错误的道路上蒙眼狂奔。其中,在比较小数部分时,它明明知道 0.9 比 0.11 大,但最后仍得出错误结论。
-3-
Gemini
谷歌 Gemini 也强不到哪里去,用英文问了两遍二者谁大,第一次它给出了正确答案,但第二次就认为相同整数的情况下,小数位数越多表示数字越大。
我们用中文问了一遍,谷歌 Gemini 结合实际生活具体场景比较大小,例如,从时间角度来看,9.11 通常是指 9・11 事件,而 9.9 则通常指 9 点 9 分,因此 9.11 比 9.9 意义更大。
当问到二者相差多少时,Gemini 得出了负数。
-4-
百度文心一言
面对 9.11 和 9.9 谁大时,文心 3.5 回答正确;
当我们问它二者相差多少时,它绕了一大圈,终于给了正确结论。
-5-
阿里通义千问
阿里通义千问全部答对。
-6-
字节豆包
我们问 9.11 和 9.9 谁大,豆包分析得头头是道,还能将其置于日常生活场景中。
例如,跑步比赛选手用时 9.11 秒和 9.9 秒,意味着 9.11 秒速度更快;
从价格的角度来看,9.9 元的商品更贵。
不过,一到结论它就回答错误。
至于二者相差多少,豆包倒是回答正确。
-7-
腾讯元宝
腾讯元宝面对这道题目时则触发了搜索功能,引用了 7 篇资料作为参考,最终回答正确。
然而,9.11 和 9.9 相差多少,元宝等式列对了,就是算数竟算出小数点后 16 位。
-8-
智谱清言
智谱清言错误地认为两位小数表示的数值比一位小数要大,导致回答错误。问到二者相差多少时,它算出个负数。
它还不忘说一句「很多 AI 模型出错可能是因为在处理数字和小数点时的算法缺陷」。
-9-
月之暗面 - Kimi
Kimi 这把也歇菜了,不仅分不清谁大,还把 9.11-9.9 算出 0.21。
-10-
科大讯飞星火
讯飞星火答对了。
-11-
百川智能 - 百小应
百小应错误地认为 9.11 更大,不过算二者差值算对了。
-12-
阶跃星辰 - 跃问
跃问在一开始的分析中没问题,但后来把自己绕晕了,搞了个「反转结论」,导致最终答案错误。
当我们再次问它为什么时,它恍然大明白,纠正了错误,并正确算出二者的差值。
-13-
商汤 - 商量
两个问题回答错误。
-14-
昆仑万维 - 天工
回答正确。
-15-
零一万物 - 万知
两个问题回答错误。