专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
保险一哥  ·  2025年第3期保险自媒体红人千人榜 ·  2 天前  
51好读  ›  专栏  ›  计算机视觉工坊

推理能力超越博士专家?最新大模型OpenAI o1到底是如何思考的?

计算机视觉工坊  · 公众号  ·  · 2024-09-14 07:00

主要观点总结

本文主要介绍了OpenAI推出的最新大型语言模型——OpenAI o1,该模型在复杂推理、超级通用性和逻辑方面表现出色。文章涵盖了o1模型的推出背景、技术特点、在各类基准测试中的表现以及与人类专家的对比等内容。

关键观点总结

关键观点1: OpenAI o1模型的特点

使用强化学习训练,具有自我思考能力,可以执行复杂的推理任务,在Codeforce、美国数学奥林匹克竞赛(AIME)等比赛中表现优异。

关键观点2: OpenAI o1模型的应用

涉及科学、编程、数学等领域的广泛应用,通过解决具有挑战性的问题展现了其高超的推理能力。

关键观点3: OpenAI o1模型与人类的对比

在特定领域的推理任务中,o1模型的表现甚至超过了人类专家,但其应用仍受限于某些场景。

关键观点4: o1模型的安全与隐私问题

使用CoT推理为模型的安全性和与人类意图的对齐性带来了优势,但也涉及到安全与隐私的挑战。


正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:深蓝AI

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!


就在大家都翘首以待中秋假期到来的时候, 北京时间9月13日凌晨,OpenAI投下了一枚重磅炸弹——他们正式公开了一系列全新 AI 大模型,超越在今天之前的全部大模型产品! 该模型称作OpenAI o1,用公司直接冠名可见官方对它的自信。OpenAI o1可以实现复杂推理,超级通用且逻辑极强,可以解决比此前的科学、代码和数学模型遇到的更难的问题。


至此,已成艺术。



在各大媒体纷纷紧急报道这一大模型界颠覆事件的时候,虽然错过了这一震撼消息的first impact,但深蓝AI还是打算沉下心来,更全面细致地将Open AI披露的o1的官方英文技术文档进行编译,并附上了我们的简要解读,希望能给大家有所帮助:



▌编译正文 (预计阅读15分钟)


Open AI即将推出OpenAI o1,这是一款使用强化学习训练的新大型语言模型,旨在执行复杂的推理任务。o1在做出回答之前会进行自我思考——它能够在回应用户之前生成一条很长的「内部」思考链。


OpenAI o1在Codeforce上获得了前89%的名次,在美国数学奥林匹克竞赛(AIME)预选赛中位列美国前500名学生之列,并在物理、生物和化学问题基准测试(GPQA)上超过了人类博士生的准确率。这个模型虽然是一大进步,但要更加容易使用它到目前我们使用其他模型的上手度来说,还有待进步。不过研究人员在本次发布会上展示的是这个模型的早期版本——OpenAI o1预览版,以供ChatGPT和受信任的API用户(在新窗口中打开)立即使用。


大规模强化学习算法在高度数据高效的训练过程中教会了o1模型如何使用其思维链进行有效思考。研究者发现,随着强化学习(训练时间计算)的增加和思考时间(测试时间计算)的延长,o1的性能将得到不断提高。不过,扩大这种方法的约束条件和扩大LLM预训练的约束条件是存在显著差异的,关于这些差异还有待研究。


图1|o1的性能随着训练时间和测试时间的计算而平稳提升


Evals:评估大语言模型的创新项目


为了凸显在推理能力上,o1相比于GPT-4o的进步,OpenAI的技术团队在一系列不同的人类考试和机器学习基准测试中对该型进行了测试。结果表明,o1在绝大多数「以推理为主的任务」上显著优于GPT-4o。除去一些特有说明,基本的测试都是在「最大测试时间」设置下对o1进行评估比较的。


图2|o1在具有挑战性的推理基准测试中较GPT-4o有很大的提升【其中实线表示pass@1准确率,阴影区域表示64个样本的多数投票(共识)性能】


图3|o1在包括54/57 MMLU子类中的广泛基准测试中,表现均优于GPT-4o


经测试,当处于大量推理的基准测试场景中,o1的性能甚至可以媲美人类专家了!


⚠️PS:是专家学者级别,而不是一般样本人群。


目前市面上的许多前沿模型大多在MATH2和GSM8K上的表现很出色,但这导致前面提到的基准测试已无法对不同模型进行有效区分。o1团队评估了AIME的数学性能——AIME是一项专为挑战美国最优秀高中生数学能力的考试。在2024年AIME考试中,GPT-4o平均只能解决12%(1.8/15)的问题,而o1在单样本问题上的平均正确率为74%(11.1/15),在64个样本中达成一致的准确率为83%(12.5/15),它使用学习到的评分函数对1000个样本进行重新排序后,准确率甚至提升至93%(13.9/15)。o1得到的13.9高分使其跻全美参赛的前500名学生之列,并超过了美国数学奥林匹克竞赛的入围分数线!


研究者们还在GPQA钻石测试上对o1进行了评估,这是一个测试化学、物理和生物学专业知识的困难智能基准测试。为了将模型与人类进行比较,他们招募了拥有博士学位的专家来回答GPQA钻石测试问题。经测试发现,o1超越了这些人类专家的表现,成为该基准测试中首个完成GPQA问答的模型!


不过这些结果也并不意味着o1在所有方面都能战胜人类博士了,它只是在解决一些博士本就能决的问题时更加熟练迅速。


在其他几个机器学习基准测试中,o1的表现也优于当下市面中最先进的模型。在启用视觉感知能力后,o1在MMMU上的得分为78.2%,成为首个与人类专家相媲美的模型。同时,o1还在57个MMLU子类别中的54个上超越了GPT-4o。


Chain of Thought:o1的特有CoT


和人类相似,o1在尝试回答/解决困难问题时进行长时间思考,即使用思维链(Chain of Thought,CoT)。通过强化学习,o1学会了优化其思维链并改进所使用的策略,它还会识别和纠正自己的错误;将复杂的步骤分解为更简单的步骤;并且能给在当前方法不起作用时举一反三,尝试用不同的方法解答。这一过程极大地提高了模型的推理能力。为了说明这一飞跃性的进步,官方在技术文档中展示了o1-preview在处理几个典型难题时用到的思维链:


我们以Cipher(加密算法场景)为例看CoT机制下的o1与GPT-4o的对比:


GPT-4o


用户

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step


Use the example above to decode:


oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz


GPT


Let’s break this down step by step based on the example:


1. Example given:
• Input: oyfjdnisdr rtqwainr acxz mynzbhhx
• Output: Think step by step


By examining the words:
• The pattern involves selecting specific letters or transforming them.


2. Now, let’s decode the new phrase:
• Input: oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz


Step-by-step decoding process:


Identify possible word divisions.


The first phrase might follow the same structure as the example. It seems like the input text could be broken into groups based on natural separations or patterns.


A possible division could be:


· oyekaijzdf


· aaptcg


· suaokybhai


· ouow


· aqht


· mynznvaatzacdfoulxxz


However, to make a meaningful decoding, I would need more context about the transformations or letter shifting that might be involved.


Could you provide any additional decoding rules or transformations used in this cipher?




OpenAI o1


用户

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step


Use the example above to decode:


oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz


GPT


To decode the given ciphertext using the example provided, we’ll use the pattern identified in the example.


Ciphertext Example:


plainText


1 oyfjdnisdr rtqwainr acxz mynzbhhx


Decoded as:


plainText


1 Think step by step


Decoding Method:


1.Pair the letters in the ciphertext.


2.Convert each letter to its numerical position in the alphabet (A=1, B=2, …, Z=26).


3.Sum the numerical values of each pair.


4.Compute the average of the sum (divide by 2).


5.Convert the average back to a letter (1=A, 2=B, …, 26=Z).


Apply this method to the given ciphertext:


plainText


1 oyekaijzdf aaptcg suaokybhai ouow aqht

mynznvaatzacdfoulxxz


Break down the ciphertext into pairs:


1. First word: “oyekaijzdf”


a.Pairs: oy, ek, ai, jz, df


b.Decoded letters:


i.oy → (15+25)/2 = 20 → T


ii.ek → (5+11)/2 = 8 → H


iii.ai → (1+9)/2 = 5 → E


iv.jz → (10+26)/2 = 18 → R


c.df → (4+6)/2 = 5 → E


d.Decoded word: THERE


2.Second word: “aaptcg”


a. Pairs: aa, pt, cg


b.Decoded letters:


i.aa → (1+1)/2 = 1 → A

ii.pt → (16+20)/2 = 18 → R

iii.cg → (3+7)/2 = 5 → E

iv.Decoded word: ARE


3.Third word: “suaokybhai”


a.Pairs: su, ao, ky, bh, ai


b.Decoded letters:


i.su → (19+21)/2 = 20 → T


ii.ao → (1+15)/2 = 8 → H


iii.ky → (11+25)/2 = 18 → R


iv.bh → (2+8)/2 = 5 → E


v.ai → (1+9)/2 = 5 → E


c.Decoded word: THREE


4.Fourth word: “ouow”


a.Pairs: ou, ow


b.Decoded letters:


i.ou → (15+21)/2 = 18 → R

ii.ow → (15+23)/2 = 19 → S


c.Decoded letters: R’S


5.Fifth word: “aqht”


a.Pairs: aq, ht


b.Decoded letters:


i.aq → (1+17)/2 = 9 → I


ii.ht → (8+20)/2 = 14 → N


c.Decoded word: IN


6.Sixth word: “mynznvaatzacdfoulxxz”


a.Pairs: my, nz, nv, aa, tz, ac, df, ou, lx, xz


b.Decoded letters:


i.my → (13+25)/2 = 19 → S


ii.nz → (14+26)/2 = 20 → T


iii.nv → (14+22)/2 = 18 → R


iv.aa → (1+1)/2 = 1 → A


v.tz → (20+26)/2 = 23 → W


vi.ac → (1+3)/2 = 2 → B


vii.df → (4+6)/2 = 5 → E


viii.ou → (15+21)/2 = 18 → R


ix.lx → (12+24)/2 = 18 → R


x.xz → (24+26)/2 = 25 → Y


c.Decoded word: STRAWBERRY


Final Decoded Message:


PlainText


1 THERE ARE THREE R'S IN STRAWBERRY


Answer:

THERE ARE THREE R’S IN STRAWBERRY




OpenAI o1在Coding中的表现


在o1之前,研究者们训练了一个模型,该模型在2024年国际信息学奥林匹克竞赛(IOI)中获得了213分,排名位于49%。该模型从o1初始化,我们对其进行训练后使得它在编程上的技能得到了进一步提高。在2024年的IOI中,该模型在与人类同台竞技,大家在具备相同条件的情况下进行了比赛——参赛者们都有10个小时的时间来解决6个非常有挑战性的算法问题,并且每个问题允许提交50次答案。


针对每个问题,参赛的OpenAI模型都预备了多个候选答案,并根据测试时的选择策略提交了其中50个。而对答案的选择基于在IOI公共测试用例、模型生成的测试用例以及学习到的评分函数上的表现。如果模型提交答案是随机化的,那么平均只能获得156分,这就说明在竞赛限制下,这一选择答题的策略价值接近60分。


在放宽了提交限制后,研究人员发现该模型性能得到了显著提高。当每个问题允许提交10,000次时,模型获得了362.14分——这一分数超出了金牌阈值,即便在此过程中他们没有采用任何选择策略。


最后,研究人员模拟了Codeforces主办的编程竞赛,以展示该模型的编程能力。他们的评估严格遵循竞赛规则,允许提交10次答案。GPT-4o的Elo评分为808,处于人类参赛者的第11百分位。而该模型则远远超过了GPT-4o和o1,其Elo评分为1807,表现优于93%的参赛者。


图4|在编程竞赛上进行进一步的微调可以提高o1的性能:经过改进后,在2024年国际信息学奥林匹克竞赛(IOI)中,o1在竞赛规则下排名第49百分位


人类偏好评估


除了考试和学术基准测试外,研究人员还对比评估了o1-preview与GPT-4o在广泛领域内的挑战性、开放式提示下的人类偏好。


此评估测试向人类训练师展示了o1-preview和GPT-4o对某个提示的匿名回复,并要求他们投票选出更喜欢的回复。在数据分析、编程和数学等重推理的类别中,o1-preview以较大优势胜出。单在一些NLP处理任务中,o1-preview就没有受到人类训练师的青睐了,这也说明o1-preview并不适合所有用例。


图5|当我们的工作需要更优秀的「推理能力」时,o1-preview比GPT-4o更受喜爱


不容忽视的安全与隐私


CoT推理为LLM的安全性和其与人类意图的对齐提供了新的机会。


不难发现,若我们将模型行为策略整合到推理模型的CoT中,会得到十分有效且稳健的效果,人类也能接受合理的价值观与原则的传授。而通过向模型传授人类社会的安全规则以及如何根据上下文进行推理时,研究者们发现了推理能力十分直接的、有助于模型稳健性的证据——


——o1-preview在关键的越狱评估(jailbreak evaluations)以及评估模型安全拒绝边界的最难内部基准测试中,实现了性能的大幅提升。各位有理由相信,使用CoT为模型安全性和对齐性带来了不小的优势:


它使开发者/用户能够以清晰的方式观察模型的思考过程;







请到「今天看啥」查看全文