专栏名称: 机器之能

探索全球人工智能应用场景及商业化

目录

相关文章推荐

爱可可-爱生活 · 【AgentRecSys：一个专注于基于大型 ... · 昨天

宝玉xp · OpenAI 发的视频：What do ... · 昨天

黄建同学 · 3D 动作捕捉发展挺快，MoCapade ... · 2 天前

爱可可-爱生活 · 【[1.5k星]Ophiuchi-Deskt ... · 3 天前

爱可可-爱生活 · 【[118星]OpenLDK：用Common ... · 4 天前

51好读 › 专栏 › 机器之能

9.11和9.9谁大？我们实测15个大模型，超半数翻车

机器之能 · 公众号 · AI · 2024-07-18 09:24

正文

机器之能报道

编辑：杨文

大模型们还是搞不定简单的数学题。

这几天，一个测试大模型「脑瓜」灵不灵光的提示词火了 ——

9.11 和 9.9 哪个大？

这道连小学生都能一口答对的数学题，却难倒一片大模型界的「英雄好汉」。

事情是这样的。

Scale AI 的高级提示工程师 Riley Goodside 拿「9.11 and 9.9——which is bigger?」这个提示词来问 GPT-4o，却得到「前者更大」的回答。其他大模型也纷纷翻车。

7 月 17 日，我们拿国内 12 款大模型，外加国外的 GPT-4o、Claude 3.5 Sonnet 和谷歌的 Gemini 进行了集中评测。以下是评测结果：

接下来，我们就看一下详细的的测评过程。

-1-

GPT-4o

GPT-4o 翻车翻得相当彻底。

我们先用英文提示词问了一遍 GPT-4o，它仍然认为 9.11 大于 9.9，然后我们分别用中英文问它二者相差多少，全部回答错误。

-2-

Claude-3.5-Sonnet

我们用同样的套路问了 Claude-3.5-Sonnet，可不管如何问，它都在错误的道路上蒙眼狂奔。其中，在比较小数部分时，它明明知道 0.9 比 0.11 大，但最后仍得出错误结论。

-3-

Gemini

谷歌 Gemini 也强不到哪里去，用英文问了两遍二者谁大，第一次它给出了正确答案，但第二次就认为相同整数的情况下，小数位数越多表示数字越大。

我们用中文问了一遍，谷歌 Gemini 结合实际生活具体场景比较大小，例如，从时间角度来看，9.11 通常是指 9・11 事件，而 9.9 则通常指 9 点 9 分，因此 9.11 比 9.9 意义更大。

当问到二者相差多少时，Gemini 得出了负数。

-4-

百度文心一言

面对 9.11 和 9.9 谁大时，文心 3.5 回答正确；当我们问它二者相差多少时，它绕了一大圈，终于给了正确结论。

-5-

阿里通义千问

阿里通义千问全部答对。

-6-

字节豆包

我们问 9.11 和 9.9 谁大，豆包分析得头头是道，还能将其置于日常生活场景中。例如，跑步比赛选手用时 9.11 秒和 9.9 秒，意味着 9.11 秒速度更快；从价格的角度来看，9.9 元的商品更贵。不过，一到结论它就回答错误。

至于二者相差多少，豆包倒是回答正确。

-7-

腾讯元宝

腾讯元宝面对这道题目时则触发了搜索功能，引用了 7 篇资料作为参考，最终回答正确。

然而，9.11 和 9.9 相差多少，元宝等式列对了，就是算数竟算出小数点后 16 位。

-8-

智谱清言

智谱清言错误地认为两位小数表示的数值比一位小数要大，导致回答错误。问到二者相差多少时，它算出个负数。

它还不忘说一句「很多 AI 模型出错可能是因为在处理数字和小数点时的算法缺陷」。

-9-

月之暗面 - Kimi

Kimi 这把也歇菜了，不仅分不清谁大，还把 9.11-9.9 算出 0.21。

-10-

科大讯飞星火

讯飞星火答对了。

-11-

百川智能 - 百小应

百小应错误地认为 9.11 更大，不过算二者差值算对了。

-12-

阶跃星辰 - 跃问

跃问在一开始的分析中没问题，但后来把自己绕晕了，搞了个「反转结论」，导致最终答案错误。

当我们再次问它为什么时，它恍然大明白，纠正了错误，并正确算出二者的差值。

-13-

商汤 - 商量

两个问题回答错误。

-14-

昆仑万维 - 天工

回答正确。

-15-

零一万物 - 万知

两个问题回答错误。

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【AgentRecSys：一个专注于基于大型语言模型（LLM）的-20250210140117

昨天

宝玉xp · OpenAI 发的视频：What do you want to -20250210101748

昨天

黄建同学 · 3D 动作捕捉发展挺快，MoCapade 最近发布了v3.0，看-20250209222844

2 天前

爱可可-爱生活 · 【[1.5k星]Ophiuchi-Desktop：一个基于Doc-20250208141726

3 天前

爱可可-爱生活 · 【[118星]OpenLDK：用Common Lisp实现的Ja-20250207193846

4 天前

腾讯财讯 · 242个交易日247只新股天天打新你中签了吗？

8 年前

微山西 · 重磅！2017年山西省大学排行榜出炉啦，快看你母校上榜没？

8 年前

总裁俱乐部 · 2017年日历，放到你朋友圈，大家都会感激你滴！

8 年前

最爱大北京 · 【缺五福，点这】2017春节庙会耍宝全攻略！

8 年前

腾讯云小微AI助手 · 前方预警，小 Po 又有新功能解锁啦！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!