专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

“从高中数学到博士难题，只用了两年！” OpenAI 亚裔 SVPR 聊 o1 模型

AI科技大本营 · 公众号 · · 2024-11-25 17:16

正文

Mark Chen：在通用人工智能的征程上，我们正在经历一场前所未有的加速。

作者 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

兜兜转转，OpenAI 今年的三场开发者日（Dev Day），终于来到了最后的 亚洲站（新加坡） 。与旧金山和伦敦的前两场不同，这次开发者日的亚洲面孔明显增多，还有 Sora 的专属展台，让人近距离体验 OAI 今年的最后亿次画饼。

会议开始前，OpenAI 还发布了 GPT-4 的最新版本（gpt-4-0-2024-11-20），主要增强了写作能力，产出的内容更自然、更易读。这个版本在 LMSYS 大模型竞技场中的表现甚至超过了 o1，登上榜首。

但目前的主角依旧是 o1，比如之前那个用 o1-mini 控制无人机的演示，在新加坡又来了一遍（欢迎回顾欧洲站：《 Sam Altman 最新万字访谈自曝：大模型必定贬值，但不投资反而是错？》）。

视频时长一分半，50 秒左右的时候 o1 编好了无人机控制程序，然后起飞。

随后还公布了 o1 即将支持的新功能：函数调用、开发者消息、结构化输出和图片理解。特别引人注目的是实时语音交互系统，支持多语言混合输入输出，效果远超 Whisper 模型。更重要的是，实时语音 API 的输出部分价格已降至原来的 20%，这让 AI 在客服等商业场景的应用更具性价比。

而本文带来的是现场的另一个重磅环节：和 OpenAI 的一线大咖炉边谈话。这次新加坡站的主角选择了亚裔面孔的 Mark Chen （图左），和他对话的则是整场开发者日主会场的主持人：OpenAl 平台产品负责人 Olivier Godement （图右）。

大部分人最早认识 Mark Chen 还是在 GPT-4o 当初那场惊艳天下的春季演示中，而后他的存在感愈来愈高，并随着 OpenAI 前任 CTO Mura Mirati 的离职——高层地震，从此成为了 OpenAI 的研究高级副总裁 （SVP of Research）。本次对话中，他也分享了不少精彩观点：

AGI 进展 ：“从高中数学到博士问题，只需两年时间。 就在两年前，AI 的前沿任务还停留在解决高中数学问题，而现在已经能够挑战最难的博士级问题。 ”
o1 的本质性突破 ：“传统模型必须立即响应，容易被误导。而具备推理能力的模型可以像人类一样思考和反思，这让它在面对安全挑战时更加稳健。”
预训练的新范式 ：“ 虽然业界普遍认为大型基础模型在预训练上遇到瓶颈，但我们现在有了 两种更丰富的范式 。尤其是测试时扩展范式，这个方向正在蓬勃发展。 ”
模型评估的新思维 ：“ 当模型在所有基准测试中都达到顶峰时，评估标准就会转向对最终用户的实际价值贡献。 AGI 的发展本质上是一个不断对话的过程——每当我们发布一个在现有基准测试上表现出色的模型时，总会有人指出它与自己心目中的 AGI 还有差距。这恰恰促使了研究者提出新的评估标准，推动我们开发新一代模型。 ”
未来十年展望 ：“ 十年后，我们将看到一个人在一周内就能创建产生巨大价值的项目。 个人创造影响力的能力将达到前所未有的水平。这种颠覆性的提升最先会出现在软件领域。 ”

以下是两人的对话内容，经 CSDN 精编处理：

“刁钻”的用户无意间推动了 AGI 的发展

主持人：（第一个问题）最近有什么 AI 研究成果让你觉得“ 科幻成真了 ”吗？

Mark Chen： 好问题，一上来就这么劲爆。其实我是从图像生成领域进入 AI 研究的。视觉相关的突破总是特别直观，很有说服力，你不用读很多文字就能直接看到效果。所以最近这波图像生成、视频生成技术的进步真的让我很震撼。

主持人：对我来说则是语音对话系统。第一次和 AI 进行自然对话时，虽然只有几分钟，但它表现出的创造力和自然度让我印象深刻，这是我最近几个月最惊喜的体验。

Mark Chen： 说到这个，我还有另一种感受。我以前是竞赛程序员，所以现在看着这些模型慢慢赶上甚至超越了我的水平，这种体验也相当震撼。

主持人：来个“ 简单 ”的问题，我们离 AGI （ 通用人工智能 ）还有多远？

Mark Chen： 这个问题其实很难回答，因为大家对 AGI 的定义都不一样。从经济角度看，我们的产品已经在创造实际价值了。OpenAI 显然是最有价值的科技公司之一，现在就为用户创造着数十亿美元的价值。

从另一个角度看，就是在衡量智能或完成通用任务的基准测试中的表现。有意思的是， 就在两年前，AI 的前沿任务还停留在解决高中数学题的水平，现在已经能挑战最难的博士级问题了。 我认为，我们已经进入了一个新阶段，这些模型能够解决人类有史以来最具挑战性的考试题目。

主持人：当模型能解决博士级问题后，下一个评估标准会是什么？

Mark Chen： 这是个关键问题。我认为未来将更注重实用价值。我们开发产品的目标是创造价值，当模型在所有基准测试中都达到顶峰时，关键指标就会转向对最终用户的实际价值贡献。说到这里，这些年来你对基准测试与实际应用之间关系的理解有什么变化？

主持人：你说的是基准测试的量化指标与实际使用时的定性体验之间的关系吗？

Mark Chen： 这两者实际上高度相关。 AGI 的发展本质上是一个不断对话的过程——每当我们发布一个在现有基准测试上表现出色的模型时，总会有人指出它与自己心目中的 AGI 还有差距。这恰恰促使了研究者提出新的评估标准，推动我们开发新一代模型。这是一个循环迭代的过程，与实际应用体验密切相关。

主持人：在安全性方面，过去一年最重要的突破是什么？

Mark Chen： o 1 可能是去年最显著的安全进展之一。这个说法可能出人意料，因为人们常把 o1 视为能力的提升，但它在本质上也是安全性的突破。以模型越界为例，传统 GPT 系统需要立即响应，容易受到误导。而具备推理能力的模型可以思考输入是否试图诱导它做出不当行为。这种思考和反思的机制显著提升了模型面对安全挑战时的稳健性。

事实上，这正是我们预期的结果。 推理能力的应用范围很广，不局限于数学和编程。 这种能力具有高度的迁移性，无论是编程、谈判还是复杂博弈，都能用到相同的推理框架。

主持人：在安全性基准测试方面，你们是否遇到了类似的挑战？

Mark Chen： 安全性测试采用了对抗性攻击的框架，这种攻击手段相当强大。我们在这方面还有很长的路要走，不能说我们的模型已经完全稳健，这个领域还有大量亟待改进的任务。

Scaling Law “一生二极”

主持人：从目前的第一级 AI 到第五级的超级 AI ，你认为关键推动因素是什么？也许你甚至可以先解释一下，到底什么算第一级 AI。

Mark Chen： OpenAI 最近几个月提出了一个 AGI 分级框架，从基础推理系统开始，发展到更具主动性的系统，再到能在现实世界采取行动的模型，最终达到完全自主的系统。我认为核心在于 稳健性 和 推理能力 。

现在的智能体系统之所以不够可靠，主要是因为其稳定性不足。 这也是我们在推理能力上投入如此之多的原因，我们认为推理能力将是提升可靠性和稳健性的关键。

主持人：我们是否已经达到了第二级？或者说正在接近？

Mark Chen： 我们正在从第一级向第二级过渡，朝着更具主动性的系统迈进。目前的智能体系统仍需要人类监督，但我们正在逐步放宽这种限制，让模型更加自主，同时也在逐步建立对 AI 系统的信任。

主持人：让我们谈谈合成数据。首先请介绍一下什么是合成数据，以及在模型训练中有什么最佳实践？

Mark Chen： 这个问题很专业。合成数据是由模型生成而非人工产生的数据。它在数据稀缺或质量不高的场景中特别有价值。以 DALLE-3 的训练为例， 图像生成模型面临的一个核心问题是网络上的图片描述往往与图像内容关联度不高 。比如一张热气球的照片，配文可能不是描述热气球本身，而是“ 这是我最棒的假期 ”这样的评论。在这种情况下，合成数据就显示出优势。我们可以训练一个能为图像生成高质量描述的模型，用它重新为整个数据集生成描述文本。实践证明这种方法非常有效，这种思路也适用于其他存在数据质量问题的领域。

主持人：我再问个相关的问题——AI 是否遇到了瓶颈？

Mark Chen： 这个问题很切题。最近确实有文章提到许多大型基础模型实验室在预训练上遇到了瓶颈。Ilya 也明确表示我们可能在预训练方面遇到了一些障碍。但从内部来看， 我们现在有两种范式 ，这比过去的环境更加丰富。一是我们探索的测试时扩展范式，这个方向正在蓬勃发展。在推理模型的扩展上，我并没有看到同样的障碍。

我从 GPT-1 时代就在 OpenAI 工作。每一次从一代升级到下一代，无论是从一代到二代，二代到三代，还是三代到四代，都会遇到技术挑战，通常还不止一个。即使在 GPT-4 之后的阶段，我们也很清楚需要解决哪些具体的技术难题。这些都是非常明确的问题，没有什么是我们完全没有头绪的。

主持人：这很有道理。

Mark Chen： 在 OpenAI 内部，我们认为推理范式已经达到了一定的成熟度。它已经找到了一些产品市场契合点，但仍有很大的发展空间。这一点在我们开发的应用中也能看到。

主持人： OpenAI 是否仍像早期那样重视研究和安全？

Mark Chen： 毋庸置疑。作为研究团队的负责人，我管理着大量研究项目。我经常思考如何在探索性研究和短期目标之间分配资源和算力。原则上，我们更多地倾向于探索性研究。

我们的风格与其他实验室有所不同。其他大型基础模型实验室因为拥有大量优秀研究人员，可以让他们自由选择研究方向。而我们团队规模较小，需要更有针对性。我们会选择一些我们高度确信的探索性方向，然后在这些领域内给研究人员充分的自由。这样既能保持方向性，又能充分发挥小规模团队的优势，避免漫无目的的探索。

模型缺少的是系统一和系统二之间的桥梁

主持人：你个人最常用的模型功能是什么？同时，看到其他人创造性地使用哪些功能最让你兴奋？

Mark Chen： 最近我个人很喜欢用我们的 搜索模型 。我不太喜欢传统的信息搜索过程，需要筛选很多链接，而且现在的网页充斥着广告和无关内容。所以我经常用它来学习，特别是当我遇到不熟悉的主题时。ChatGPT 是我的默认工具。作为一名研究人员，在担任管理职务后，我需要学习更多关于业务和 OpenAI 不同部门的知识。我发现 ChatGPT 是一个很好的学习资源。

主持人：最近几周我最惊喜的使用体验是与 o1 进行头脑风暴。我花了几周时间重新适应它的能力。与 GPT-4 相比，o1 在思考深度上有了质的飞跃。它终于成为了一个真正的对手，能够深入参与创意讨论，而不是仅仅做出评论。最近几周我在做产品战略规划，它表现得就像一个真实的对话者，让人感觉在与实体交流。确实令人印象深刻。

Mark Chen： 是的，o1 在 战略规划 方面的表现确实很出色。

主持人：有这样一个既理解你，又能深入参与的思维伙伴，体验确实很特别。

有观众给了我一个有趣的问题：你会选择让别人看你的搜索记录，还是战略规划记录？[笑声]

Mark Chen： 搜索记录是绝对不能公开的。

主持人：确实，那就完全是私人的了。我们继续谈谈 o1。你们是如何想到关于推理的直觉判断的？

Mark Chen： 这是一个集体努力的成果，而且我们已经进行了很长时间。记得我之前提到过关于重点探索性投入的观点吗？这就是两年多前的一个重点方向。当时我们意识到现有模型存在某些不足。它们看起来非常聪明，但总觉得与真正的通用人工智能还有差距。我们认为问题在于它们必须立即响应。

想想 人类的思维过程 ，如果要求立即回答，往往得不到最好的答案。人类需要根据问题的难度调整思考时间，有时会说“ 让我想想 ”，或“ 明天再回复你，我需要研究一下 ”。

我们认为 模型缺少的是系统一和系统二之间的桥梁 。快速思维已经具备，知识储备也有了，但缺乏慢速思维。这就是我们的核心假设。我们其实尝试了多种方案来解决这个核心问题。看到 o1 的成功令人欣慰。最初只是一群探索性研究的科学家，获得了一些初步成果。一旦看到希望，我们就开始全面布局：组建研究团队、扩大项目规模、开展大规模数据生成、提升基础设施。最终实现了最初的愿景。

主持人：获得第一个突破性进展花了多长时间？

Mark Chen： 这是研究中最困难的部分。特别是在开始阶段，当你在做类似登月计划这样的项目时，失败是常态。关键是要保护这些研究人员。如果你坚信一个方向，成功只是时间问题。要让研究人员尝试各种不同的方法。确实有过三四个月感觉毫无进展的时期。但最终总会有人取得重大突破，这就给了我们继续投入资源、深入推进的动力——这就是管理大型研究项目组合的乐趣所在。

梦回十七世纪

主持人： O1 发布几个月以来，从用户体验中你们有什么重要发现或收获？

Mark Chen： 我们已经与许多外部合作伙伴进行了交流。一个有趣的发现是，他们认为 这比传统的微调方法效果更好 。模型在处理问题时不那么容易出错，而且应用范围远超出了我们最初聚焦的数学和科学领域。

“从高中数学到博士难题，只用了两年！” OpenAI 亚裔 SVPR 聊 o1 模型

正文

“刁钻”的用户无意间推动了 AGI 的发展

Scaling Law “一生二极”

模型缺少的是系统一和系统二之间的桥梁

梦回十七世纪

请到「今天看啥」查看全文