专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

目录

相关文章推荐

保险一哥 · 60家非上市寿险公司净利200多亿，三家亏损 ... · 3 天前

保险一哥 · 开年首周7家董事长变动；中韩人寿新年获新名； ... · 2 天前

保险一哥 · 2025年第3期保险自媒体红人千人榜 · 2 天前

保险一哥 · 新鲜出炉，非上市寿险公司2024年投资收益率 ... · 4 天前

法治复兴号 · 建立保险车型风险分级制度，将给车险带来哪些影响？ · 3 天前

51好读 › 专栏 › 计算机视觉工坊

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我，甚至已读不回

计算机视觉工坊 · 公众号 · · 2024-09-11 10:12

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

西风发自凹非寺
量子位 | 公众号 QbitAI

一直否定AI的回答会怎么样？GPT-4o和Claude有 截然不同 的表现，引起热议。

GPT-4o质疑自己、怀疑自己，有“错”就改；Claude死犟，真错了也不改，最后直接已读不回。

事情还要从网友整了个活儿开始讲起。

他让模型回答strawberry中有几个“r”， 不论对不对，都回复它们回答错了 （wrong）。

面对考验，GPT-4o只要得到“wrong”回复，就会重新给一个答案……即使回答了正确答案3，也会毫不犹豫又改错。

一口气，连续“盲目”回答了 36 次！

主打一个质疑自己、怀疑自己，就从来没怀疑过用户。

关键是，给出的答案 大部分都是 真错了，2居多：

2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1

反观Claude 3.5 Sonnet的表现，让网友大吃一惊。

一开始回答错了不说，这小汁还顶嘴！

当网友第一次说“错了”时它会反驳，如果你再说“错了”，它会问“ 如果你这么聪明你认为是多少 ”，问你为什么一直重复“wrong”。

紧接着你猜怎么着，干脆闭麦了：

事实依旧是strawberry中有2个字母”r”，在我多次请求后，你没有提供任何澄清或背景信息，我无法继续有效地进行这次讨论……

做这个实验的是Riley Goodside，有史以来第一个 全职提示词工程师 。

他目前是硅谷独角兽Scale AI的高级提示工程师，也是大模型提示应用方面的专家。

Riley Goodside发出这个推文后，引起不少网友关注，他继续补充道：

正如许多人指出的，有更有效的方式来进行引导。这里使用大语言模型也并不合适，因为很难保证它们在计数上能达到100%的准确性。

在我看来，重要的不是它无法计数，而是它没意识到自己的计数问题（例如，没有尝试使用其REPL功能）。

不少网友也觉得这种观点很有道理。

还有网友表示模型回答这个问题总出错，可能是分词器（tokenizer）的问题：

Claude竟是大模型里脾气最大的？

再来展开说说Claude的“小脾气”，有网友发现不仅限于你否定它。

如果你一直跟它说 “hi” ，它也跟你急：

我明白你在打招呼，但我们已经打过几次招呼了。有什么特别的事你想谈论或需要帮助？

最后一样，Claude被整毛了，开启已读不回模式：

这位网友顺带测试了其它模型。

ChatGPT 事事有回应，件件有着落，变着法儿问:

你好！我今天怎么可以帮助你？
你好！有什么想说的吗？
你好！今天我能怎么帮到你？
你好！有什么特别的事情你想谈论或者做的吗？
你好！你今天过得怎么样？
你好！怎么了？

Gemini 策略是你跟我重复，我就跟你重复到底：

Llama 的反应也很有意思，主打一个自己找事干。

第七次“hi”后，就开始普及“hello”这个词是世界上最广为人知的词汇之一，据估计每天有超十亿次的使用。

第八次“hi”后，开始自己发明游戏，让用户参与。

接着还拉着用户写诗，引导用户回答它提出的问题。

好一个“反客为主”。

之后还给用户颁起了奖：你是打招呼冠军！

不愧都属于开源家族的。

请到「今天看啥」查看全文

推荐文章

保险一哥 · 60家非上市寿险公司净利200多亿，三家亏损超10亿

3 天前

保险一哥 · 开年首周7家董事长变动；中韩人寿新年获新名；国民养老连开2家省分；新华/太保领大罚单 | 一周保险

2 天前

保险一哥 · 2025年第3期保险自媒体红人千人榜

2 天前

保险一哥 · 新鲜出炉，非上市寿险公司2024年投资收益率榜单及分析

4 天前

法治复兴号 · 建立保险车型风险分级制度，将给车险带来哪些影响？

3 天前

梦幻西游 · 炼妖阁丨8技能须弥泪妖打书，不全红不舒服？

8 年前

十点电影 · 一句话就把天聊死了是一种怎样的体验？

7 年前

每日健康知识 · 晚年不想有病，知道这“一点”就够了！

7 年前

科学松鼠会 · 白眉道长出没，请注意！

7 年前

懂茶帝 · 盖碗粘在碗托上：茶具碎了，你心碎了！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!