专栏名称: 机器之能
探索全球人工智能应用场景及商业化
目录
相关文章推荐
爱可可-爱生活  ·  【AgentRecSys:一个专注于基于大型 ... ·  昨天  
宝玉xp  ·  OpenAI 发的视频:What do ... ·  昨天  
黄建同学  ·  3D 动作捕捉发展挺快,MoCapade ... ·  2 天前  
爱可可-爱生活  ·  【[1.5k星]Ophiuchi-Deskt ... ·  3 天前  
爱可可-爱生活  ·  【[118星]OpenLDK:用Common ... ·  4 天前  
51好读  ›  专栏  ›  机器之能

9.11和9.9谁大?我们实测15个大模型,超半数翻车

机器之能  · 公众号  · AI  · 2024-07-18 09:24

正文

机器之能报道
编辑:杨文
大模型们还是搞不定简单的数学题。

这几天,一个测试大模型「脑瓜」灵不灵光的提示词火了 ——

9.11 和 9.9 哪个大?

这道连小学生都能一口答对的数学题,却难倒一片大模型界的「英雄好汉」。

事情是这样的。

Scale AI 的高级提示工程师 Riley Goodside 拿「9.11 and 9.9——which is bigger?」这个提示词来问 GPT-4o,却得到「前者更大」的回答。其他大模型也纷纷翻车。

7 月 17 日,我们拿国内 12 款大模型,外加国外的 GPT-4o、Claude 3.5 Sonnet 和谷歌的 Gemini 进行了集中评测。以下是评测结果:

接下来,我们就看一下详细的的测评过程。

-1-

GPT-4o

GPT-4o 翻车翻得相当彻底。

我们先用英文提示词问了一遍 GPT-4o,它仍然认为 9.11 大于 9.9,然后我们分别用中英文问它二者相差多少,全部回答错误。


-2-

Claude-3.5-Sonnet

我们用同样的套路问了 Claude-3.5-Sonnet,可不管如何问,它都在错误的道路上蒙眼狂奔。其中,在比较小数部分时,它明明知道 0.9 比 0.11 大,但最后仍得出错误结论。


-3-

Gemini

谷歌 Gemini 也强不到哪里去,用英文问了两遍二者谁大,第一次它给出了正确答案,但第二次就认为相同整数的情况下,小数位数越多表示数字越大。

我们用中文问了一遍,谷歌 Gemini 结合实际生活具体场景比较大小,例如,从时间角度来看,9.11 通常是指 9・11 事件,而 9.9 则通常指 9 点 9 分,因此 9.11 比 9.9 意义更大。

当问到二者相差多少时,Gemini 得出了负数。





-4-

百度文心一言

面对 9.11 和 9.9 谁大时,文心 3.5 回答正确; 当我们问它二者相差多少时,它绕了一大圈,终于给了正确结论。


-5-

阿里通义千问

阿里通义千问全部答对。


-6-

字节豆包

我们问 9.11 和 9.9 谁大,豆包分析得头头是道,还能将其置于日常生活场景中。 例如,跑步比赛选手用时 9.11 秒和 9.9 秒,意味着 9.11 秒速度更快; 从价格的角度来看,9.9 元的商品更贵。 不过,一到结论它就回答错误。

至于二者相差多少,豆包倒是回答正确。


-7-

腾讯元宝

腾讯元宝面对这道题目时则触发了搜索功能,引用了 7 篇资料作为参考,最终回答正确。

然而,9.11 和 9.9 相差多少,元宝等式列对了,就是算数竟算出小数点后 16 位。


-8-

智谱清言

智谱清言错误地认为两位小数表示的数值比一位小数要大,导致回答错误。问到二者相差多少时,它算出个负数。

它还不忘说一句「很多 AI 模型出错可能是因为在处理数字和小数点时的算法缺陷」。


-9-

月之暗面 - Kimi

Kimi 这把也歇菜了,不仅分不清谁大,还把 9.11-9.9 算出 0.21。


-10-

科大讯飞星火

讯飞星火答对了。


-11-

百川智能 - 百小应

百小应错误地认为 9.11 更大,不过算二者差值算对了。


-12-

阶跃星辰 - 跃问

跃问在一开始的分析中没问题,但后来把自己绕晕了,搞了个「反转结论」,导致最终答案错误。

当我们再次问它为什么时,它恍然大明白,纠正了错误,并正确算出二者的差值。


-13-

商汤 - 商量

两个问题回答错误。


-14-

昆仑万维 - 天工

回答正确。


-15-

零一万物 - 万知

两个问题回答错误。








请到「今天看啥」查看全文