继谷歌去年 12 月发布 Gemini Deep Research 之后,ChatGPT 母公司 OpenAI 于日前推出了一款类似产品——“Deep Research”,该产品能够
综合数百个网站的信息进而生成长达数页的引文报告
,充当个人智能助手,在短短几十分钟内完成相当于数小时的工作。
许多试用过它的科学家都对它
撰写文献综述或综述论文全文,甚至找出知识空白的能力
印象深刻。不过,也有一些人的反馈并不那么积极。在一段在线视频评论中,来自莫菲特菲尔德湾区环境研究所的数据科学家 Kyle Kabasares 就评价道:“如果是人类写的,我会觉得,这还需要大量的改进”。
OpenAI 和谷歌将此类产品的推出视为
迈向能够处理复杂任务的 AI 智能体
的一步。观察人士也指出,Deep Research 之所以引人注目,是因为它
将 o3 大语言模型(LLM)的改进推理能力与互联网搜索能力结合在了一起
。
相比之下,谷歌的 Gemini Deep Research 目前基于 Gemini 1.5 Pro,而非其领先的推理模型 2.0 Flash Thinking。
综述撰写
对于 OpenAI 和谷歌的这两款产品,许多用户都表示印象深刻。来自初创公司 FutureHouse 的化学家兼人工智能专家 Andrew White 认为,谷歌的产品“真正发挥了谷歌在搜索和计算方面的优势”,能让用户快速了解某个主题,而 o3 的推理技能则为
OpenAI 的产品所撰写的报告增添了精确性和复杂性,拓展了深度
。
来自杰克逊实验室的免疫学家 Derya Unutmaz 表示,他曾通过 OpenAI 提供的 ChatGPT Pro 免费访问权限进行医学研究。他认为 OpenAI 的 Deep Research 所撰写的报告“非常令人印象深刻”并且“值得信赖”,“与已发表的综述论文不相上下,甚至更好”。
他评价道:“我认为(人工)撰写综述正在变得过时”。
White 预计,
此类 AI 产品未来可以用于更新人类撰写
的综
述。
毕竟,“每 6 个月都由人工更新一次权威综述不太可行”。
诚然,有不少人警示到,
所有基于 LLM 的产品仍然存在不准确或有误导性的问题。
OpenAI 也在其官网指出,其产品“仍处于早期阶段,存在局限性”——它可能会弄错引文、混淆事实、无法区分权威信息和谣言,也无法准确表达其不确定性。OpenAI 预计,这些问题会随着使用量增加和时间推移而改善。谷歌为 Gemini Deep Research 出具的免责声明中也写道:“Gemini 可能会出错,请务必仔细检查”。
马克斯·普朗克光科学研究所人工科学家实验室负责人 Mario Krenn 指出,这些 AI 产品并不是在进行科学家通常意义上的“研究”。他表示,科学家们会花费数年时间深入研究单一主题,并逐步发展新的思想。“这种能力目前尚未在 AI 上得到验证”。Krenn 补充道:“也许很快就会实现,谁也无法预料这些天会发生什么”。
测试结果
OpenAI 对其产品进行了一系列测试。例如,在人类的最后考试(Humanity's Last Exam,HLE)中, Deep Research 表现出色。HLE 是一项 3000 道题的基准测试,涵盖了从语言学到科学等各个学科的专家级知识,其设计难度远高于现在人工智能所能胜任的其他常见测试(如 GPQA)。该测试涵盖了从语言学到科学等各个领域的专家级知识。在测试中,
Deep Research 在 HLE 的纯文本问题上以 26.6% 的成绩名列第一
。
OpenAI 还针对 GAIA 基准进行了测
试。
GAIA 基准于 2023 年开发,用于测试能够进行多步推理和网页浏览来回答问题的人工智能。
在公开的 GAIA 排行榜上,跨国公司 H2O.ai 的智能体位居榜首,该智能体由 Anthropic 的 Claude 3.5 Sonnet 提供支持,并在最高难度级别上得分 40.82%。而 OpenAI 的 Deep Research 得分为 58.03%。