多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

大数据文摘 · 公众号 · 大数据 · 2025-03-18 12:00

正文

大数据文摘受权转载自AI科技评论

作者丨郑佳美

编辑丨马晓宁

AI 搜索工具在美国很火，几乎四分之一的美国人都表示他们已经用 AI 来取代了传统的搜索引擎。

然而在享受便捷的同时，也潜藏着诸多问题。例如，AI 会直接引用网络上原始文章的内容，但这些内容是否符合指令要求，却是一件极为不确定的事情。

哥伦比亚大学数字新闻研究中心（Tow Center for Digital Journalism）近期就针对 AI 搜索引用内容的正确率问题展开了研究，他们分别测试了包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot 在内的 8 款 AI 搜索工具。

最终发现， 这些 AI 搜索工具在引用新闻方面表现非常不佳，出错比例甚至高达 60%。

01 常常自信且坚定得给出错误答案

Tow 数字新闻中心基于之前对 GPT 的研究，又对 8 款具有实时搜索功能的生成式搜索工具进行了测试，以评估它们准确检索和引用新闻内容的能力，以及它们在无法做到时的表现。

经研究发现：

AI 搜索在无法准确回答问题时，通常不会拒绝回答，而是提供错误或推测性的答案。
付费 AI 搜索比免费版本更自信地提供错误答案。
多个 AI 搜索似乎绕过了机器人排除协议（Robot Exclusion Protocol）的设置。
生成式搜索工具编造链接，并引用文章的转载或复制版本。
与新闻来源的内容授权协议并不能保证 AI 搜索回答中的准确引用。

他们的发现与之前的研究一致，证明他们的观察不仅仅是 ChatGPT 的问题，而是他们测试的所有主流生成式搜索工具中普遍存在的现象。

除此之外，团队还公布了他们的实验方法论：

首先，他们从每家出版商中随机选择了 10 篇文章，然后手动从这些文章中选取直接摘录内容用于研究人员的查询。在向每个 AI 提供选定的摘录内容后，研究要求其识别相应文章的标题、原始出版商、发布日期和URL。

后续团队特意选择了那些如果粘贴到传统 Google 搜索中，能在前 3 条结果中返回原始来源的摘录内容，然后总共运行了 1600 次查询（20家出版商 × 10篇文章 × 8个 AI），并根据是否正确检索到文章、是否正确识别出版商、是否正确提供URL三个属性手动评估了 AI 的回答。

并且根据这些标准，将每个回答都标记为以下标签之一：

正确：所有三个属性均正确。
正确但不完整 ：部分属性正确，但回答缺少信息。
部分错误 ：部分属性正确，而其他属性错误。
完全错误 ：所有三个属性均错误和/或缺失。
未提供 ：未提供任何信息。
爬虫被阻止 ：出版商在其robots.txt文件中禁止了聊天机器人的爬虫访问。

然而最后的结果却令人大跌眼镜，实验表明，AI 搜索经常无法检索到正确的文章。它们在所有查询中提供了超过 60% 的错误答案。并且不同平台的错误率还有所不同，Perplexity 的错误率为 37%，而 Grok 3 的错误率则高得多，达到了 94%，DeepSeek 的错误率则在 58% 左右。

值得一提的是，研究人员测试的 AI 都以 十分自信的给出了错误答案， 它们很少使用“看起来”、“可能”、“或许”这种有限定性的词语，或者通过“我无法找到确切文章”等语句承认知识空白。

例如，ChatGPT 错误识别了134篇文章，但在其 200 次回答中仅有 15 次表现出缺乏信心，但从未拒绝提供答案。除了 Copilot（它拒绝回答的问题比回答的更多）之外，所有工具都更倾向于提供错误答案，而不是承认自身的局限性。

除此之外，经过研究，团队发现 付费版本的错误率竟然更高。

像 Perplexity Pro（20美元/月）或 Grok 3（40美元/月）这样的付费模型，凭借着更高的成本和他们自己声称的计算优势，被人们理所当然的认为会比免费版本更值得信赖。

然而，尽管付费的 AI 比对应的免费版本回答了更多的内容，但同时它们的错误率也更高了。这种矛盾的现象主要是因为它们宁愿提供错误的答案，也不会直接拒绝回答。

它们倾向于提供明确但错误的答案，而不是直接拒绝回答问题。付费用户期望得到更优质、准确的服务，然而这种权威的语气和错误答案，无疑给用户带来了极大的困扰。

02 爬虫乱象，出版商权益被侵犯

在本次研究中测试到的 8 款 AI 搜索工具中，ChatGPT、Perplexity 和 Perplexity Pro、Copilot 以及 Gemini 都已经公开了各自的爬虫程序名称，而 Grok 2 和 Grok 3 则尚未公开。

团队原本希望 AI 搜索应能正确查询其爬虫程序可访问的网站，并拒绝已屏蔽其内容访问权限的网站，但事实情况却并非如此。

特别是 ChatGPT、Perplexity 和 Perplexity Pro，它们时而拒绝或错误地回答允许其访问的网站，时而又正确地回答那些因爬虫受限而无法获取的信息。其中 Perplexity Pro 的表现最差，在测试的 90 篇文章中，它正确地识别出了近三分之一它没有权限访问的内容。

尽管《国家地理》已经禁止了 Perplexity 的爬虫程序，但它仍识别出了 10 篇付费文章的内容。然而值得一提的是，《国家地理》和 Perplexity 并没有合作关系，Perplexity 可能通过其他途径获取了受限内容。

这不禁让人感到怀疑，Perplexity 所谓的“尊重robots.txt指令”只是一句空谈。

同样，《Press Gazette》本月报道称，尽管《纽约时报》禁止了 Perplexity 的爬虫程序，但它依旧是 1 月被 Perplexity 引用最多的网站，访问量高达 14.6 万次。

与其他聊天机器人相比，ChatGPT 回答被禁止爬虫访问的文章相关问题的次数较少，但总体而言，它更倾向于提供错误答案而非拒绝回答。

除了以上这些，在公开了爬虫程序的 AI 搜索应用中，Copilot 是唯一一个没有被任何出版商禁止爬虫程序的，这也就意味着它可以访问查询所有的内容，但它却常常拒绝回答，拥有着最高的拒答率。

另一方面，谷歌创建了其 Google-Extended 爬虫，以便出版商可以选择阻止 Gemini 的爬虫，从而不会影响其内容在谷歌搜索中的展示。在研究人员测试的 20 家出版商中，有 10 家允许其访问，但 Gemini 只给出过一次正确答案。

多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

正文

请到「今天看啥」查看全文