专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  【[74星]EasyDeploy:一站式大规 ... ·  11 小时前  
爱可可-爱生活  ·  【[29星]eqnn-jax:基于Jax实现 ... ·  11 小时前  
宝玉xp  ·  好事-20250207065622 ·  23 小时前  
爱可可-爱生活  ·  晚安~ #晚安# -20250205221737 ·  2 天前  
宝玉xp  ·  谢谢支持,来自我昨天写的《AI ... ·  2 天前  
51好读  ›  专栏  ›  新智元

o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开

新智元  · 公众号  · AI  · 2024-09-22 12:40

主要观点总结

本文介绍了OpenAI的o1模型的开发背景、关键特性和团队体验等相关内容。

关键观点总结

关键观点1: o1模型是OpenAI的全新系列,与GPT模型最大不同在于推理能力。

o1作为一个推理模型,能够思考并产生最优结果。

关键观点2: o1模型的研发过程中经历了许多挑战,如数据获取、算法优化、模型评估等。

研究人员通过不断努力和创新,最终实现了模型的出色表现。

关键观点3: o1模型的应用场景广泛,如编码助手、头脑风暴伙伴等。

o1模型可以为研究人员提供有力的支持,帮助他们解决各种问题。

关键观点4: OpenAI团队的氛围被描述为非常融洽,团队成员之间互相支持,共同推进项目进展。

这种团队合作的方式让许多研究者感到在这里工作是非常好的经历。

关键观点5: o1-mini的发布是为了提供更多预算较低但推理能力依旧很强的模型。

这表明OpenAI在不断改进算法的同时,也在考虑模型的普及和应用。


正文



新智元报道

编辑:桃子 乔杨
【新智元导读 o1诞生,对于OpenAI团队来说,是最具革命性的时刻。在22分钟完整版采访视频中,他们分享了自己对新模型的思考,以及背后的开发故事。

OpenAI o1团队采访的完整版视频,终于上线了!

全程22分钟,o1研发团队在项目Bob McGrew组织下,一起分享了「啊哈」时刻。

有的人提到,全新o1模型相当于多个博士「合体」而成,往往比人类表现更好。还有的人称,o1发布之后,明显感受到了AGI到来。

「当模型在数学、编码、围棋、国际象棋等领域的表现超过人类时,AGI的未来变得更加明朗」。

来自艾伦研究所的科学家Nathan Lambert对这个视频,做了一个精彩亮点的总结。

一共有8点:

1 强化学习加持的o1,比人类更善于发现新的CoT推理步骤

2 自我批评的涌现,是o1最强有力的时刻

3 让o1「超时」前完成回答,然后突然有了「啊哈」时刻

4 scaling参数规模的挑战,以及继续沿着强化学习算法进步之路

5 许多人提到,相对于算法而言,基础设施显得多么重要

6 通过规划、纠错,o1能够解决世界上的新问题

7 新的训练范式是一种全新的方法,可以将更多的算力投入到模型中

8 o1编写代码时,当其输出要使用的代码时,需要通过单元测试

接下来,具体来看下o1模型背后的故事。

强化学习+思考,o1开启新范式

o1作为OpenAI全新系列,与GPT模型最大不同,就在于推理。

它本质上,是一个推理模型,也就是会比以往「思考」得更多。

在OpenAI研究人员看来,「思考」就是推理的一种最直观的方式。

有时候,当被问及意大利首都是什么问题时,我们几乎不用思考,即刻就能得出答案。但有时候,涉及商业企划书、写小说等人物时,便需要长时间的思考过程。

毋庸置疑,思考时间越久,结果就越好。

因此,推理是将思考时间,转化为最优结果的能力。

用Mark Chen的话来说,推理是一种「原语」,是实现任何可靠思考过程的必经之路。

关于推理的研究,OpenAI内部其实很早就开始了。成立初期,他们看到了AlphaGo通过RL算法战胜人类的潜力,并进行了大量的研究。

比如,他们曾在2016年开放游戏测试平台「Universe」,是一个训练AI通用智能水平的开源平台。

2018年打造出名为OpenAI Five的游戏AI,成功击败了两届DOTA2国际邀请赛的世界冠军OG战队。

与此同时,数据和机器人领域,取得了重大的scaling进展。

OpenAI团队便开始思考:如何在通用领域做到强化学习,实现一个非常有力的AI?

那便是,GPT系列开启的全新范式。它在扩展无监督学习方面,取得了惊人的成果。

而且,也就是从那时起,研究人员便开始探索,如何将这两种范式相结合——强化学习和无监督学习。

研究人员称,这项努力开始的确切时间点,很难说,但这件事已经进行了很长时间。

「啊哈」时刻

在视频中,有人表示,自己觉得研究中最酷的就是那个「啊哈」时刻了。

在某个特定的时间点,研究发生了意想不到的突破,一切忽然就变得很明了,仿佛顿悟一般灵光乍现。

所以,团队成员们分别经历了怎样的「啊哈」时刻呢?

有人说,他感觉到在训练模型的过程中,有一个关键的时刻,就是当他们投入了比以前更多的算力,首次生成了非常连贯的CoT。

就在这一刻,所有人都惊喜交加:很明显,这个模型跟以前的有着明显的区别。

还有人表示,当考虑到训练一个具备推理能力的模型时,首先会想到的,是让人类记录其思维过程,据此进行训练。

对他来说,啊哈时刻就是当他发现通过强化学习训练模型生成、优化CoT,效果甚至比人类写的CoT还好的那一刻。

这一时刻表明,我们可以通过这种方式扩展和探索模型的推理能力。

这一位研究者说,自己一直在努力提升模型解决数学问题的能力。

让他很沮丧的是,每次生成结果后,模型似乎从不质疑自己做错了什么。

然而,当训练其中一个早期的o1模型时,他们惊奇地发现,模型在数学测试中的得分忽然有了显著提升。

而且,研究者们可以看到模型的研究过程了——它开始自我反思、质疑自己。

他惊叹道:我们终于做出了不一样的东西!

这种感受极其强烈,那一瞬间,仿佛所有东西都汇聚到了一起。

还有一位研究人员表示,当你要求模型在「超时」前,完成思考,过程非常有趣。

这就像自己在参加数学竞赛一样,任何思考都是有时限的。

他表示,这也是自己进入AI领域主要原因,而现在,对于自己来说,也算是实现了「闭环」时刻。

另外,o1模型让人惊艳的是,在推动科学发现和工程进步,有巨大的帮助。

对于很多人而言,AGI似乎是一个很抽象、很遥不可及的概念,直到亲眼看见AI在人类擅长的事情上做得更好,才能相信AGI的到来。

对专业的国际象棋和围棋手而言,IBM的Deep Blue,以及DeepMind AlphaGo和AlphaZero,让他们早在几年前就意识到了这一点。

而对OpenAI的这群擅长数学和编码的科学家,o1模型就有类似的意义。更有趣的是,他们的工作相当于是亲手制造了一个可以碾压自己能力的AI。

项目中,遇到哪些困难?

关于过程中遇到的障碍,研究人员们直接表示,训练LLM从根本上来讲就是一件非常困难的事情。

类似于从地球发射一枚飞往月球的火箭,成功的路只有很窄的一条,但有数不清的失败之路,稍微偏离一个角度就无法到达目标。

训练过程出问题的方式可以有上千种,即使在这群才华横溢的研究科学家们手中,每轮训练也会遇到数百个问题。

此外,随着模型变得越来越智能,比如像o1一样相当于手握几个phd学位的人类,评估也变得越发困难。

有时,他们需要花很长的时间来确定模型做的事情是否正确,而且最后很多常用的行业基准也趋于饱和,需要重新找到适合o1能力的基准测试。

除了模型的开发历程,研究人员们还被问到了自己最喜欢的o1模型用例。

Hyung Won Chung表示,o1可以成为很好的编码助手。

他自己在工作时通常遵循TDD(Test-Driven Development)的开发方式,有了o1的帮助可以免去自己编写单元测试的工作,而是直接指定需求,让模型自动编写。

此外,遇到的报错信息也可以直接扔给o1,虽然有时不能直接解决问题,但它可以比编译器提出一个更好的问题,帮助你解决错误。

Jason Wei则表示,自己经常把o1当成头脑风暴的伙伴,而且可以讨论的问题范围相当之广,大到如何解决一个机器学习问题,小到如何起草一篇博客或推文。

他今年5月撰写的一篇关于LLM评估的博客,就借鉴了o1的意见,比如文章的结构、各种评估基准的优缺点以及行文风格等等方面。

在OpenAI工作是一种什么样的体验?

关于这个问题,很多人都谈到了大家的聪明才智,以及团队氛围的融洽。

比如自己吭哧吭哧调试了一周的代码,被路过的同事瞬间解决了;每天和极其聪明的同事共处,让自己逐渐变得谦卑。

Mark Chen形容「草莓」项目是一个非常「有机」(organic)的项目,因为在专业问题上大家都有自己的看法和主见,都有满怀热情想要推动的想法。

当这些想法聚集在一起,就会迸发出火花,像滚雪球一样越滚越大。

然而,有主见的另一面,就是所有人都很坚持自己的看法,但并不固执。如果看到反驳自己主张的客观结果,他们也会随之改变想法。

更值得赞叹的是,这群绝顶聪明的人,同时也很nice,乐于帮助别人解决问题,同事之间一起吃饭、一起出去玩,让采访中的很多研究者都直言,「在这里工作是非常好的经历」。

o1-mini背后的故事







请到「今天看啥」查看全文