专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
爱可可-爱生活  ·  [RO]《DemoStart: ... ·  4 天前  
爱可可-爱生活  ·  【InstanSeg:基于PyTorch的细 ... ·  4 天前  
爱可可-爱生活  ·  【Docker Compose ... ·  4 天前  
黄建同学  ·  Krea宣布上线实时的Flux,包含上百种不 ... ·  5 天前  
51好读  ›  专栏  ›  宝玉xp

//@i陆三金:「当我们考虑训练一个具备推理能力的模型时,首先想-20240913115215

宝玉xp  · 微博  · AI  · 2024-09-13 11:52

正文

2024-09-13 11:52

//@i陆三金:「当我们考虑训练一个具备推理能力的模型时,首先想到的是让人类记录他们的思维过程并据此训练,我的 aha 时刻是,我们发现如果通过强化学习训练模型生成并优化它自己的思维链,效果甚至比人类撰写的思维链更好。这表明我们可以通过这种方式扩展和探索模型的推理能力。」
这是 OpenAI o1 背后的团队一起制作的一个短小的视频,其中一个人提出了一个问题:“什么是推理呢?”,这真是个好问题,感觉似乎知道答案,又似乎不知道如何表达。

但是他紧接着自己回复了这个问题:“一种理解推理的方式是, 有时候我们会提出一些问题需要立即得到答案因为这些是简单的问题。例如,如果你问“意大利的首都是哪里?”, 答案是罗马,几乎不需要多想。但如果你在思考一个复杂的难题, 或者想写一份好的商业计划书, 或者撰写一本小说, 你可能需要花些时间去深入思考。而你花在思考上的时间越多,结果往往越好。因此,推理是一种将思考时间转化为更好结果的能力, 不论你正在处理什么任务。”

简单来说就是推理意味着慢思考,区别于快思考马上给出答案,在得出结果之前要先自我反思质疑。这可能就是 o1 和以往模型的核心区别,以前 GPT-4,除非你额外要求,默认是马上给出答案,并不会去自我反思自我质疑的。

另外他们还分享了做研究中的“啊哈”时刻,就是那种灵光一现顿悟的时刻,突然发生了意想不到的突破, 让一切突然变得明了。不知道 AI 是不是将来也会自己产生 “啊哈” 时刻,突然觉醒统治人类😄

#OpenAI发布最强模型o1# 宝玉xp的微博视频