专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

Nature：OpenAI的Deep Research对科学家有多大用处？

学术头条 · 公众号 · · 2025-02-09 08:31

正文

继谷歌去年 12 月发布 Gemini Deep Research 之后，ChatGPT 母公司 OpenAI 于日前推出了一款类似产品——“Deep Research”，该产品能够 综合数百个网站的信息进而生成长达数页的引文报告 ，充当个人智能助手，在短短几十分钟内完成相当于数小时的工作。

许多试用过它的科学家都对它 撰写文献综述或综述论文全文，甚至找出知识空白的能力 印象深刻。不过，也有一些人的反馈并不那么积极。在一段在线视频评论中，来自莫菲特菲尔德湾区环境研究所的数据科学家 Kyle Kabasares 就评价道：“如果是人类写的，我会觉得，这还需要大量的改进”。

OpenAI 和谷歌将此类产品的推出视为 迈向能够处理复杂任务的 AI 智能体 的一步。观察人士也指出，Deep Research 之所以引人注目，是因为它 将 o3 大语言模型（LLM）的改进推理能力与互联网搜索能力结合在了一起 。相比之下，谷歌的 Gemini Deep Research 目前基于 Gemini 1.5 Pro，而非其领先的推理模型 2.0 Flash Thinking。

综述撰写

对于 OpenAI 和谷歌的这两款产品，许多用户都表示印象深刻。来自初创公司 FutureHouse 的化学家兼人工智能专家 Andrew White 认为，谷歌的产品“真正发挥了谷歌在搜索和计算方面的优势”，能让用户快速了解某个主题，而 o3 的推理技能则为 OpenAI 的产品所撰写的报告增添了精确性和复杂性，拓展了深度 。

来自杰克逊实验室的免疫学家 Derya Unutmaz 表示，他曾通过 OpenAI 提供的 ChatGPT Pro 免费访问权限进行医学研究。他认为 OpenAI 的 Deep Research 所撰写的报告“非常令人印象深刻”并且“值得信赖”，“与已发表的综述论文不相上下，甚至更好”。 他评价道：“我认为（人工）撰写综述正在变得过时”。

White 预计， 此类 AI 产品未来可以用于更新人类撰写的综述。 毕竟，“每 6 个月都由人工更新一次权威综述不太可行”。

诚然，有不少人警示到， 所有基于 LLM 的产品仍然存在不准确或有误导性的问题。 OpenAI 也在其官网指出，其产品“仍处于早期阶段，存在局限性”——它可能会弄错引文、混淆事实、无法区分权威信息和谣言，也无法准确表达其不确定性。OpenAI 预计，这些问题会随着使用量增加和时间推移而改善。谷歌为 Gemini Deep Research 出具的免责声明中也写道：“Gemini 可能会出错，请务必仔细检查”。

马克斯·普朗克光科学研究所人工科学家实验室负责人 Mario Krenn 指出，这些 AI 产品并不是在进行科学家通常意义上的“研究”。他表示，科学家们会花费数年时间深入研究单一主题，并逐步发展新的思想。“这种能力目前尚未在 AI 上得到验证”。Krenn 补充道：“也许很快就会实现，谁也无法预料这些天会发生什么”。

测试结果

OpenAI 对其产品进行了一系列测试。例如，在人类的最后考试（Humanity's Last Exam，HLE）中， Deep Research 表现出色。HLE 是一项 3000 道题的基准测试，涵盖了从语言学到科学等各个学科的专家级知识，其设计难度远高于现在人工智能所能胜任的其他常见测试（如 GPQA）。该测试涵盖了从语言学到科学等各个领域的专家级知识。在测试中， Deep Research 在 HLE 的纯文本问题上以 26.6% 的成绩名列第一 。

OpenAI 还针对 GAIA 基准进行了测 试。 GAIA 基准于 2023 年开发，用于测试能够进行多步推理和网页浏览来回答问题的人工智能。 在公开的 GAIA 排行榜上，跨国公司 H2O.ai 的智能体位居榜首，该智能体由 Anthropic 的 Claude 3.5 Sonnet 提供支持，并在最高难度级别上得分 40.82%。而 OpenAI 的 Deep Research 得分为 58.03%。

Nature：OpenAI的Deep Research对科学家有多大用处？

正文

综述撰写

测试结果

请到「今天看啥」查看全文