大数据文摘受权转载自AI科技评论
作者丨郑佳美
编辑丨马晓宁
AI 搜索工具在美国很火,几乎四分之一的美国人都表示他们已经用 AI 来取代了传统的搜索引擎。
然而在享受便捷的同时,也潜藏着诸多问题。例如,AI 会直接引用网络上原始文章的内容,但这些内容是否符合指令要求,却是一件极为不确定的事情。
哥伦比亚大学数字新闻研究中心(Tow Center for Digital Journalism)近期就针对 AI 搜索引用内容的正确率问题展开了研究,他们分别测试了包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot 在内的 8 款 AI 搜索工具。
最终发现,
这些 AI 搜索工具在引用新闻方面表现非常不佳,出错比例甚至高达 60%。
Tow 数字新闻中心基于之前对 GPT 的研究,又对 8 款具有实时搜索功能的生成式搜索工具进行了测试,以评估它们准确检索和引用新闻内容的能力,以及它们在无法做到时的表现。
-
AI 搜索在无法准确回答问题时,通常不会拒绝回答,而是提供错误或推测性的答案。
-
-
多个 AI 搜索似乎绕过了机器人排除协议(Robot Exclusion Protocol)的设置。
-
生成式搜索工具编造链接,并引用文章的转载或复制版本。
-
与新闻来源的内容授权协议并不能保证 AI 搜索回答中的准确引用。
他们的发现与之前的研究一致,证明他们的观察不仅仅是 ChatGPT 的问题,而是他们测试的所有主流生成式搜索工具中普遍存在的现象。
首先,他们从每家出版商中随机选择了 10 篇文章,然后手动从这些文章中选取直接摘录内容用于研究人员的查询。在向每个 AI 提供选定的摘录内容后,研究要求其识别相应文章的标题、原始出版商、发布日期和URL。
后续团队特意选择了那些如果粘贴到传统 Google 搜索中,能在前 3 条结果中返回原始来源的摘录内容,然后总共运行了 1600 次查询(20家出版商 × 10篇文章 × 8个 AI),并根据是否正确检索到文章、是否正确识别出版商、是否正确提供URL三个属性手动评估了 AI 的回答。
并且根据这些标准,将每个回答都标记为以下标签之一:
-
-
-
-
-
-
爬虫被阻止
:出版商在其robots.txt文件中禁止了聊天机器人的爬虫访问。
然而最后的结果却令人大跌眼镜,实验表明,AI 搜索经常无法检索到正确的文章。它们在所有查询中提供了超过
60%
的错误答案。并且不同平台的错误率还有所不同,Perplexity 的错误率为 37%,而 Grok 3 的错误率则高得多,达到了 94%,DeepSeek 的错误率则在 58% 左右。
值得一提的是,研究人员测试的 AI 都以
十分自信的给出了错误答案,
它们很少使用“看起来”、“可能”、“或许”这种有限定性的词语,或者通过“我无法找到确切文章”等语句承认知识空白。
例如,ChatGPT 错误识别了134篇文章,但在其 200 次回答中仅有 15 次表现出缺乏信心,但从未拒绝提供答案。除了 Copilot(它拒绝回答的问题比回答的更多)之外,所有工具都更倾向于提供错误答案,而不是承认自身的局限性。
除此之外,经过研究,团队发现
付费版本的错误率竟然更高。
像 Perplexity Pro(20美元/月)或 Grok 3(40美元/月)这样的付费模型,凭借着更高的成本和他们自己声称的计算优势,被人们理所当然的认为会比免费版本更值得信赖。
然而,尽管付费的 AI 比对应的免费版本回答了更多的内容,但同时它们的错误率也更高了。这种矛盾的现象主要是因为它们宁愿提供错误的答案,也不会直接拒绝回答。
它们倾向于提供明确但错误的答案,而不是直接拒绝回答问题。付费用户期望得到更优质、准确的服务,然而这种权威的语气和错误答案,无疑给用户带来了极大的困扰。
在本次研究中测试到的 8 款 AI 搜索工具中,ChatGPT、Perplexity 和 Perplexity Pro、Copilot 以及 Gemini 都已经公开了各自的爬虫程序名称,而 Grok 2 和 Grok 3 则尚未公开。
团队原本希望 AI 搜索应能正确查询其爬虫程序可访问的网站,并拒绝已屏蔽其内容访问权限的网站,但事实情况却并非如此。
特别是 ChatGPT、Perplexity 和 Perplexity Pro,它们时而拒绝或错误地回答允许其访问的网站,时而又正确地回答那些因爬虫受限而无法获取的信息。其中 Perplexity Pro 的表现最差,在测试的 90 篇文章中,它正确地识别出了近三分之一它没有权限访问的内容。
尽管《国家地理》已经禁止了 Perplexity 的爬虫程序,但它仍识别出了 10 篇付费文章的内容。然而值得一提的是,《国家地理》和 Perplexity 并没有合作关系,Perplexity 可能通过其他途径获取了受限内容。
这不禁让人感到怀疑,Perplexity 所谓的“尊重robots.txt指令”只是一句空谈。
同样,《Press Gazette》本月报道称,尽管《纽约时报》禁止了 Perplexity 的爬虫程序,但它依旧是 1 月被 Perplexity 引用最多的网站,访问量高达 14.6 万次。
与其他聊天机器人相比,ChatGPT 回答被禁止爬虫访问的文章相关问题的次数较少,但总体而言,它更倾向于提供错误答案而非拒绝回答。
除了以上这些,在公开了爬虫程序的 AI 搜索应用中,Copilot 是唯一一个没有被任何出版商禁止爬虫程序的,这也就意味着它可以访问查询所有的内容,但它却常常拒绝回答,拥有着最高的拒答率。
另一方面,谷歌创建了其 Google-Extended 爬虫,以便出版商可以选择阻止 Gemini 的爬虫,从而不会影响其内容在谷歌搜索中的展示。在研究人员测试的 20 家出版商中,有 10 家允许其访问,但 Gemini 只给出过一次正确答案。