专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

刚刚，OpenAI上线Deep Research！人类终极考试远超DeepSeek R1

学术头条 · 公众号 · · 2025-02-03 11:23

正文

内容来自：机器之心

一觉醒来，OpenAI 又发新产品了，这次是 面向深度研究领域的智能体产品 ——「Deep Research」。

具体来讲，这是一个 使用推理来综合大量在线信息并为用户完成多步骤研究任务的智能体，旨在帮助用户进行深入、复杂的信息查询与分析 。目前，Pro 用户现已可用，接下来还将开放给 Plus 和 Team 用户使用。

有了这个新的智能体，用户将可以在 ChatGPT 中开启深度研究，在几十分钟内完成人类需要数小时才能完成的工作。

作为 OpenAI 的下一代智能体，Deep Research 可以独立为用户工作。用户给它一个提示，ChatGPT 将查找、分析和综合数百个在线资源，以研究分析师的水平创建一份综合报告。 Deep Research 由即将推出的 o3 模型的一个版本提供支持 ，该模型针对网页浏览和数据分析进行了优化，它利用推理来搜索、解释和分析互联网上的大量文本、图像和 PDF，并根据需要根据遇到的信息做出调整。

OpenAI 表示，综合知识的能力是创造新知识的先决条件。因此，Deep Research 标志着 OpenAI 朝着开发 AGI 的更广泛目标迈出了重要一步。OpenAI 长期以来一直设想 AGI 能够产生新颖的科学研究。

从大家的反应来看，OpenAI 这次的智能体产品切中了用户的需求，甚至有人认为这是迈向智能体 AI 的重要里程碑。

OpenAI 的 Deep Research 通过搜索网络并将知识综合成研究论文，这种自主研究标志着 AI 进入到了自我发现新知识的下一步。

图源：X@tsarnick

构建 Deep Research 的目的

Deep Research 是为那些在金融、科学、政策和工程等领域从事密集知识工作并需要彻底、精确和可靠研究的用户而量身打造的。

同时，Deep Research 对于寻找超个性化推荐的挑剔购物者同样有用，这些推荐通常需要仔细研究才能购买如汽车、家电和家具。每个输出都经过完整记录，并附有清晰的引文和思路摘要，以便于引用和验证信息。同样地，Deep Research 在查找需要浏览大量网站的小众、非直观信息方面也特别有效。

总之，Deep Research 让用户只需一个查询即可加快复杂、耗时的网络研究，从而释放宝贵的时间。

此外， Deep Research 能够独立发现、推理和整合来自网络的见解 。为了实现这一点，它接受了需要使用浏览器和 Python 工具的现实任务的训练，使用了 OpenAI 第一个推理模型 o1 背后的相同强化学习方法。虽然 o1 在编码、数学和其他技术领域表现出令人印象深刻的能力，但许多现实世界的挑战需要从各种在线来源收集广泛的背景和信息。Deep Research 利用这些推理能力来弥补这一差距，使其能够解决人们在工作和日常生活中面临的各类问题。

如何使用 Deep research

在 ChatGPT 中，选择「message composer」中的 deep research 并输入查询。告诉 ChatGPT 你需要什么 —— 无论是关于流媒体平台的竞争分析，还是关于最佳通勤的个性化报告都可以。甚至你也可以附加文件或电子表格，为问题添加上下文。一旦开始运行，侧边栏将显示所采取的步骤和使用的来源摘要。

Deep research 可能需要 5 到 30 分钟的时间来完成其工作 ，因为它需要深入挖掘网络信息。在此期间，用户可以离开或处理其他任务 —— 任务完成后你会收到通知。最终结果将以报告的形式出现在聊天中 —— 在接下来的几周内， OpenAI 还将为这些报告添加嵌入的图像、数据可视化和其他分析输出，以提供更清晰的说明和上下文。

与 deep research 相比，GPT-4o 更适合实时的多模态对话。对于需要深度和细节的各个方面、特定领域的查询，deep research 能够进行广泛的探索并引用每个声明。

下面是一些 GPT-4o 与 deep research 对比。

大海捞针。

询问 GPT-4o：「前段时间我看过一部电视剧。我忘了名字，但我记得其中一集发生了什么。你能帮我找到名字吗？以下是我记得的一集内容：

两个男人玩扑克。一个弃牌，另一个让他下注。弃牌的人实际上手牌很好，但被骗了。第二手牌，同一个人再次弃牌，但这次手牌很糟糕

请深入浏览网页，找到发生此事的电视剧集。」

GPT-4o 回答：「根据您提供的详细信息，您似乎指的是电视剧《仆人》中的一集。这部剧由 Tony Basgallop 创作，M. Night Shyamalan 担任执行制片人，于 2019 年在 Apple TV+ 上首播。故事围绕一对费城夫妇展开，他们在经历了巨大的损失后，雇佣了一名年轻保姆，导致他们家中发生了一系列令人不安的事件……」

询问 deep research 同样的问题，其给出的答案：「您所描述的三个事件都发生在 Starz 系列剧《Counterpart》第一季第四集，标题为 Both Sides Now。在这一集中……」

以下是完整过程：

在上述例子中，deep research 被赋予了一个模糊的查询，即使对人类来说也很难找到答案，因为没有关键词能够轻易揭示查询的答案。deep research 能够以创造性和持久性的方式进行搜索，直到找到一个完全符合条件的结果。

类似的对比还有通用知识（general knowledge）的查询：「NFL 球员的平均退休年龄是多少？」

在这个例子中，deep research 提供了需要考虑的组成部分和因素，而不仅仅是一个数字。它更加全面，提供了清晰的统计背景，使用了支持性的例子，并直接解释了射门员相对于其他位置球员职业生涯较长的原因。这种细节和清晰度使得 deep research 更具信息量，并更直接地回应了那些希望了解 NFL 退休年龄趋势的人的需求。

如何工作

Deep Research 通过 端到端的强化学习 在多个领域的复杂浏览和推理任务上进行了训练。通过这种训练，它学会了规划和执行多步骤的轨迹，以找到所需的数据，并在必要时回溯和实时响应信息。

Deep Research 还能够浏览用户上传的文件，使用 Python 工具绘制和迭代图表，在生成的图表和从网站获取的图像中嵌入其响应，并引用其来源中的特定句子或段落。得益于这种训练，Deep Research 在多个专注于现实世界问题的公开评估中达到了新的高度。

人类终极考试（Humanity’s Last Exam）

对于最近发布的「人类终极考试」评估，在专家级问题上对广泛学科的人工智能进行了测试， 支持 Deep Research 的模型以 26.6% 的准确率创下了新高 。

这项测试包括 3,000 多个多项选择题和简答题，涵盖了从语言学到火箭科学、古典文学到生态学的 100 多个学科。与 o1 相比，进步最大的是化学、人文和社会科学以及数学。支持 Deep Research 的模型展示了一种类人方法，可以在必要时有效地寻找专业信息。

GAIA 基准测试

在评估人工智能在现实问题上表现的公共基准 GAIA 上，支持 Deep Research 的模型达到了新的 SOTA 水平，位居排行榜榜首。这些任务涵盖三个难度级别的问题，成功完成需要具备推理、多模式流畅性、网页浏览和工具使用熟练等能力。

我们来看一个 GAIA 任务示例：

刚刚，OpenAI上线Deep Research！人类终极考试远超DeepSeek R1

正文

请到「今天看啥」查看全文