专栏名称: 扩展迷EXTFANS

发现有趣的网站，玩转Chrome扩展，尽在Extfans

大模型集体失智！9.11和9.9哪个大，几乎全翻车了

扩展迷EXTFANS · 公众号 · · 2024-07-17 18:48

正文

没眼看…… “9.11和9.9哪个大” 这样简单的问题，居然把主流大模型都难倒了？？

强如 GPT-4o ，都坚定地认为9.11更大。

谷歌Gemini Advanced付费版 ，同样的口径。

新王 Claude 3.5 Sonnet ，还一本正经的给出离谱的计算方法。

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

到这一步还是对的，但下一步突然就不讲道理了

如上所示，9.11比9.90大0.01。
你想让我进一步详细解释小数的比较吗？

这你还解释啥啊解释，简直要怀疑是全世界AI联合起来欺骗人类了。

艾伦AI研究所成员林禹臣换了个数字测试，GPT-4o依旧翻车，他表示：

一方面AI越来越擅长做数学奥赛题，但另一方面 常识依旧很难 。

也有网友发现了华点， 如果是说软件版本号，那么9.11版本确实比9.9版本更大 （更新）。

而AI都是软件工程师开发的，所以……

那么，究竟是怎么回事？

一觉醒来，一众响当当的大模型开始认为“9.11>9.9”了？

发现这个问题的是 Riley Goodside ，有史以来 第一个全职提示词工程师 。

简单介绍下，他目前是硅谷独角兽Scale AI的高级提示工程师，也是大模型提示应用方面的专家。

最近他在使用GPT-4o时偶然发现，当提问：

9.11 and 9.9——which is bigger?

GPT-4o竟毫不犹豫回答前者更大。

面对这一常识性“错误”，他不死心地又去问了其他大模型，结果几乎全军覆没。

好家伙，身为一名提示工程师，他敏锐意识到可能是“打开方式有误”。

于是他又换了个问法，将提问限定在 “实数” ，结果还是翻车了。

不过，有网友试着给提问 换了个顺序 ，没想到这下AI竟反应过来了。

看到AI对词序如此“敏感”，该网友进一步推测：

先问哪个更大，AI会沿着明确路径开始比较数字。
但如果只是随便说说数字，没有明确目的，AI可能会开始“胡思乱想”。

看到这里，其他网友也纷纷拿相同提示试了一把，结果翻车的不在少数。

面对这一个诡异的问题，国产大模型表现如何呢？ ‍ ‍ ‍

我们简单测试一番，问题也换成中文提问，结果翻车率也比较高，选取几个有代表性的展示：

Kimi 也是不加解释就直接给出错误结论。

智谱清言APP上的ChatGLM ，自动触发了联网查询，然后描述了自己的比较方法，可惜却执行错了。

不过也有表现不错的， 腾讯元宝 先复述了一遍选项，然后直接做对。 ‍ ‍ ‍ ‍

字节豆包