专栏名称: AGI Hunt
关注AGI 的沿途风景!
目录
相关文章推荐
直播海南  ·  网友吐槽:用棉花代替真雪!景区道歉了 ·  2 天前  
直播海南  ·  突发!开曼群岛附近海域发生8.0级地震 ·  3 天前  
51好读  ›  专栏  ›  AGI Hunt

是o1 不行,还是你不够聪明?

AGI Hunt  · 公众号  ·  · 2024-12-09 00:18

正文

OpenAI的o1刚刚亮相,就被诟病起能力不行!

有人说它「不够好」,有人说是「没用好」,到底谁说得对?

实力到底如何?


数据显示,在 竞赛数学、竞赛代码和博士级科学问题 上,o1都展现出了惊人的能力。特别是在 pro模式 下,其表现更是令人瞩目。

@Patrick's AIBuzzNews直言:

o1的智能水平已经超过99%的人类 」。

这个评价虽然风格大胆如Sam Altman,但从测试数据来看,确实令人印象深刻。

@JE_Colors 给出了 实测 具体数据:

o1在处理相同任务时,速度比之前快了4倍 (19秒 vs 76秒)」。

争议从何而来?


但为什么还是有这么多人不满意呢?

原因似乎有很多:

技术认知的偏差

  • 很多人对o1的技术本质存在误解。@Adam Goldstein就纠正了一个重要概念:

o1使用的是测试时计算(Test-Time Compute),而不是测试时训练(Test-Time Training)

  • @arunabh补充说:

这其实是在语言领域的搜索,而不是测试时训练


这些技术细节的误解,往往会导致人们对o1的能力边界产生错误预期。

使用方式的问题

  • @JE_Colors 指出:

很多人还在用对待GPT-4的方式来使用o1

  • @IA Latinoamérica更是直言不讳:

『不够好』其实等于『不知道如何使用这个工具』

期望过高

  • @Jo认为:

这可能是因为OpenAI此前对Q /Strawberry的过度炒作 *

  • @gerver Alvarez指出:

当Claude 3.5 Sonnet能达到相似效果时,人们就会质疑o1的优势

专业人士怎么看?


@Sithamet作为一线开发者指出了o1的具体问题:

在处理人类语言和代码混合的场景时,确实比GPT-4更容易混淆

但他也强调:「 批评能帮助实验室进步,因为他们无法在实验室环境中测试所有场景 」。

@BeijingChef则从使用门槛的角度提出:

目前能真正测试o1能力的,可能只有拥有精英工作经历的博士或顶尖硕士。对普通用户来说,甚至都无法提出足够专业的问题来挑战它

社区反思


@Sola对当前社区的风气提出了尖锐批评:

AI社区已经变成了一个只关注性能指标的有毒粉丝圈,像个黑洞一样只进不出,却很少有人真正专注于用现有工具创造有意义的产品和创新

@Nifty则呼吁:「 与其批评它的局限性,不如想办法更有效地利用它 」。







请到「今天看啥」查看全文