专栏名称: 扩展迷EXTFANS
发现有趣的网站,玩转Chrome扩展,尽在Extfans
目录
相关文章推荐
51好读  ›  专栏  ›  扩展迷EXTFANS

大模型集体失智!9.11和9.9哪个大,几乎全翻车了

扩展迷EXTFANS  · 公众号  ·  · 2024-07-17 18:48

正文

梦晨 一水 发自 凹非寺
量子位 | 公众号 QbitAI

没眼看…… “9.11和9.9哪个大” 这样简单的问题,居然把主流大模型都难倒了??

强如 GPT-4o ,都坚定地认为9.11更大。

谷歌Gemini Advanced付费版 ,同样的口径。

新王 Claude 3.5 Sonnet ,还一本正经的给出离谱的计算方法。

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

到这一步还是对的,但下一步突然就不讲道理了

如上所示,9.11比9.90大0.01。
你想让我进一步详细解释小数的比较吗?

这你还解释啥啊解释,简直要怀疑是全世界AI联合起来欺骗人类了。

艾伦AI研究所成员林禹臣换了个数字测试,GPT-4o依旧翻车,他表示:

一方面AI越来越擅长做数学奥赛题,但另一方面 常识依旧很难

也有网友发现了华点, 如果是说软件版本号,那么9.11版本确实比9.9版本更大 (更新)。

而AI都是软件工程师开发的,所以……

那么,究竟是怎么回事?

先进大模型集体翻车

一觉醒来,一众响当当的大模型开始认为“9.11>9.9”了?

发现这个问题的是 Riley Goodside ,有史以来 第一个全职提示词工程师

简单介绍下,他目前是硅谷独角兽Scale AI的高级提示工程师,也是大模型提示应用方面的专家。

最近他在使用GPT-4o时偶然发现,当提问:

9.11 and 9.9——which is bigger?

GPT-4o竟毫不犹豫回答前者更大。

面对这一常识性“错误”,他不死心地又去问了其他大模型,结果几乎全军覆没。

好家伙,身为一名提示工程师,他敏锐意识到可能是“打开方式有误”。

于是他又换了个问法,将提问限定在 “实数” ,结果还是翻车了。

不过,有网友试着给提问 换了个顺序 ,没想到这下AI竟反应过来了。

看到AI对 词序 如此“敏感”,该网友进一步推测:

先问哪个更大,AI会沿着明确路径开始比较数字。
但如果只是随便说说数字,没有明确目的,AI可能会开始“胡思乱想”。

看到这里,其他网友也纷纷拿相同提示试了一把,结果翻车的不在少数。

面对这一个诡异的问题,国产大模型表现如何呢?

我们简单测试一番,问题也换成中文提问,结果翻车率也比较高,选取几个有代表性的展示:

Kimi 也是不加解释就直接给出错误结论。

智谱清言APP上的ChatGLM ,自动触发了联网查询,然后描述了自己的比较方法,可惜却执行错了。

不过也有表现不错的, 腾讯元宝 先复述了一遍选项,然后直接做对。

字节豆包







请到「今天看啥」查看全文