专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
51好读  ›  专栏  ›  Dots机构投资者社区

一件比OpenAI发布deep research更值得关注的事情|甲子光年

Dots机构投资者社区  · 公众号  ·  · 2025-02-04 08:15

正文

OpenAI deep research意图突破“人类的最后考试”。


作者|王博


北京时间今天上午,OpenAI突然发布了一款全新的Agent(智能体)——deep research。


Deep research是一款利用推理合成大量在线信息并为用户完成多步骤研究任务的Agent,目前已整合到ChatGPT中。目前,ChatGPT Pro用户已可使用相关功能,接下来deep research也将对Plus和Team用户开放使用。


简单来说,用户只需要告诉ChatGPT需要一份怎样的报告,并在对话框中勾选deep research, ChatGPT就将查找、分析并综合数百个线上资料,创建一份相当于 分析师 水平的综合报告,而用时只需要5~30分钟。


这已经是OpenAI近两周的第三次发布了,之前OpenAI发布了首款AI Agent——Operator和最新推理模型o3-mini。


这三次发布都在DeepSeek-R1发布之后。


图片来源:OpenAI


Youtube网友看热闹不嫌事大,一位网友在deep research发布视频下评论:“ Deepseek应该发布R2,这样我们下周就能接触到GPT5。


图片来源:OpenAI Youtube账号


OpenAI的确也在想着DeepSeek,在OpenAI发布deep research的直播演示画面中,历史聊天记录中有一个问题是:“Is Deeper Seeker a good name?(Deeper Seeker是一个好名字吗?)”


不知道这是“无心之失”,还是“有意为之”,但OpenAI很有可能最开始没想给这个新Agent起名deep research,而是想“碰瓷”DeepSeek,至少想留个“彩蛋”。


图片来源:OpenAI


Deep research由即将推出的OpenAI o3模型中的一个版本驱动,该版本经过优化以进行网络浏览和数据分析,可以利用推理来搜索、解释和分析互联网上的大量文本、图像和PDF文件,并根据搜集的信息进行灵活调整。


OpenAI展示了很多deep research的应用案例,比如在商业、大海捞针(Needle in a Haystack)、医学研究、用户体验设计、购物等领域的应用,并称Deep research可提供“全面、精确、可靠的研究”“超个性化购买建议”“小众的、非直观的信息”。


通过deep research生成的市场分析报告,有数据、图表、来源,图片来源:OpenAI


Deep research处理大海捞针问题演示,图片来源:OpenAI


这不禁让我们这些搞行业分析的人倒吸了一口凉气,“年还没过完,工作就要没了?”


我们把deep research的事情跟DeepSeek和Kimi都说了,DeepSeek-R1安慰道:“这种变革本质上不是替代,而是将人类智慧从信息处理的‘体力劳动’中解放,转向更高维的价值创造。”而Kimi 1.5则更为直接地说:“尽管AI在生成研究报告方面展现出了惊人的效率和能力,但人类分析师在理解复杂问题、与客户沟通以及提供专业建议等方面仍然具有不可替代的优势。”


“AI是否能替代人类分析师”的话题还有待讨论,但是这次OpenAI o3模型通过deep research展现出的回答专业、复杂问题能力非常值得关注。


它使用了类似人类的方法,创造了在“人类的最后考试”(Humanity's Last Exam)中的最佳成绩。




1.什么是“人类的最后考试”?


“人类的最后考试”是由Center for AI Safety(CAIS)和Scale AI共同推出的一项新的基准测试(benchmark),旨在评估大语言模型(LLMs)的深度推理能力,并确定专家级人工智能(expert-level AI)何时真正到来。



基准测试是评估大模型能力的重要工具,但是基准测试的难度并未与时俱进。


比如热门的基准测试MMLU(Massive Multitask Language Understanding),其在2021年被提出,包含了57个学科领域,覆盖从基础到高级的不同难度级别,涉及 STEM(科学、技术、工程、数学)、社会科学、人文、医学、法律等多个领域。


很多大模型在MMLU基准测试上实现了超过90%的准确率,这限制了对最先进的大模型能力的有效测量。


智源研究院副院长兼总工程师林咏华曾公开表示,有一些测评榜单完全可以靠定向的训练数据来拔高分数。


“C-Eval、MMLU以及CMMLU,这几个类似的测评集已经有点被各个模型过度训练。”林咏华说,“所以,观察大模型能力时,我建议大家不用过度关注这几个测试集的评分。”


时代呼唤新的基准测试。


2024年9月,就在OpenAI发布o1模型后,CAIS和Scale AI就在筹划新的基准测试——“人类的最后考试”。2025年1月,“人类的最后考试”基准测试正式推出,相关论文也发到了arXiv上了。


在“人类的最后考试”的组织团队中,「甲子光年」发现了一个熟人——丹·亨德里克斯(Dan Hendrycks)。


“人类的最后考试”组织团队,图片来源:arXiv


Dan Hendrycks,图片来源:UC Berkeley


他是一位在机器学习、深度学习鲁棒性以及人工智能安全领域颇有影响力的研究者,目前担任非营利性组织CAIS的主任,同时他也是xAI和Scale AI的顾问。


更值得一提的是,他是当年MMLU基准测试论文的一作。


《MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING》论文,图片来源:arXiv


让亨德里克斯下定决心发起“人类的最后考试”的是OpenAI o1, 他认为该模型“摧毁了最受欢迎的推理基准”。


与他有相同想法的还有Scale AI CEO亚历山大·王(Alexandr Wang),去年9月,他就呼吁:“我们迫切需要更严格的测试来评估专家级模型,以衡量人工智能的快速进展。”


大约四个月后,CAIS和Scale AI推出了“人类的最后考试”基准测试,这是一个处于人类知识前沿的多模态基准测试。


“人类的最后考试”共有3000道题目,不要小看这3000道题目,它们是从70000道题目中经过重重筛选而来。








请到「今天看啥」查看全文