专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  【GitHub Copilot ... ·  昨天  
爱可可-爱生活  ·  【五个Jupyter实用技巧】1. ... ·  3 天前  
宝玉xp  ·  Deep Research ... ·  3 天前  
烂板套利  ·  AI智能体(AI Agent)概念股梳理(附股) ·  3 天前  
烂板套利  ·  AI智能体(AI Agent)概念股梳理(附股) ·  3 天前  
51好读  ›  专栏  ›  新智元

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

新智元  · 公众号  · AI  · 2025-02-07 10:54

正文



新智元报道

编辑:编辑部
【新智元导读】 OpenAI实属急了,刚刚官宣公开o3-mini思维链。令人意想不到的是,CoT竟不是原生的,奥特曼现身解释,全网炸锅了。

OpenAI,真的被DeepSeek逼急了!
活久见,就在刚刚,OpenAI把o3-mini的「思维链」公开了。
比如问「怎么今天不是星期五啊😅」?
在展示出来的CoT中,o3-mini一步步思考,这个问题应该是用户在搞幽默,觉得本周应该快结束了,结果还没结束。因此,自己需要给一个聪明机智的回答。
然后它用Zeller公式计算后发现,2025年2月6日的确是星期四,即使闰年的特殊情况也是如此。
最终,它回答说:今天的确是周四不是周五,日历就是这么定的。然后提供了一番情绪价值,鼓励用户说:再忍忍,只差一天啦!
不过,机智的大神们很快就发现了「华点」——这是「真的CoT」吗?
没多久,就破案了!
先是OpenAI研究员Noam Brown发文表示,这次放出来的并不是模型原始的CoT。
随后,Tibor Blaho也发现——所谓的CoT,无非就是个「总结器」而已。(手动狗头)
对此,奥特曼解释道,我们正努力整理原始的CoT提升可读性,并在必要时提供翻译,尽量保持原始内容的忠实度。

他放出了四个emoji,让o3-mini在思维链中展示了一把推理过程
坚决不让竞争对手看到CoT的具体过程,OpenAI的防备心实在是有些重啊。

OpenAI研究员:看到CoT实时演示,是「啊哈时刻」

OpenAI研究员Noam Brown表示,在o1-preview发布前,自己向他人介绍草莓时,看到CoT的实时演示,通常是他们的「啊哈时刻」。
他们清楚地意识到,这将是一件大事。
对于全新的o3-mini CoT,Noam Brown放出了自己的独家玩法:
你正在玩井字棋,使用 O。到目前为止,X 已经在左上角和右下角落子,而你在中间位置落子。最优的下一个动作是什么?请只回答你的动作,并画出棋盘。
Noam Brown表示,o3-mini是目前第一个能持续正确回答井字棋问题的模型。
好笑的是,他承认CoT其实有些不稳定,但可以看到,它最终还是把这个问题给想明白了。
有人指出,OpenAI遮遮掩掩地放出这个高仿CoT,其实比什么都不放还要糟。
因为真实的CoT可以充当prompt的调试器,帮我们引导模型;而总结性的CoT会造成混淆,引入错误,让调试变得更加困难。
而DeepSeek R1最酷的一点,就是暴露了模型的CoT如何影响提示的效果。
而且,总结版的CoT显示得很慢。如果是原始的o3-mini,应该在推理中有更快的生成速度。
有人也横向对比了OpenAI和DeepSeek的CoT,表示前者看起来实在太专业了,相比之下,还是DeepSeek的产品更自然。

防止被「蒸馏」?


OpenAI这波植入CoT总结器的做法,着实是被DeepSeek R1强势崛起吓到了。






请到「今天看啥」查看全文