专栏名称: AGI Hunt

关注AGI 的沿途风景！

是o1 不行，还是你不够聪明？

AGI Hunt · 公众号 · · 2024-12-09 00:18

正文

OpenAI的o1刚刚亮相，就被诟病起能力不行！

有人说它「不够好」，有人说是「没用好」，到底谁说得对？

实力到底如何？

数据显示，在 竞赛数学、竞赛代码和博士级科学问题 上，o1都展现出了惊人的能力。特别是在 pro模式 下，其表现更是令人瞩目。

@Patrick's AIBuzzNews直言：

「 o1的智能水平已经超过99%的人类 」。

这个评价虽然风格大胆如Sam Altman，但从测试数据来看，确实令人印象深刻。

@JE_Colors 给出了实测具体数据：

「 o1在处理相同任务时，速度比之前快了4倍 （19秒 vs 76秒）」。

争议从何而来？

但为什么还是有这么多人不满意呢？

原因似乎有很多：

技术认知的偏差 ：

很多人对o1的技术本质存在误解。@Adam Goldstein就纠正了一个重要概念：

o1使用的是测试时计算（Test-Time Compute），而不是测试时训练（Test-Time Training）

@arunabh补充说：

这其实是在语言领域的搜索，而不是测试时训练

这些技术细节的误解，往往会导致人们对o1的能力边界产生错误预期。

使用方式的问题 ：

@JE_Colors 指出：

很多人还在用对待GPT-4的方式来使用o1

@IA Latinoamérica更是直言不讳：

『不够好』其实等于『不知道如何使用这个工具』

期望过高 ：

@Jo认为：

这可能是因为OpenAI此前对Q /Strawberry的过度炒作 *

@gerver Alvarez指出：

当Claude 3.5 Sonnet能达到相似效果时，人们就会质疑o1的优势

专业人士怎么看？

@Sithamet作为一线开发者指出了o1的具体问题：

在处理人类语言和代码混合的场景时，确实比GPT-4更容易混淆 。

但他也强调：「 批评能帮助实验室进步，因为他们无法在实验室环境中测试所有场景 」。

@BeijingChef则从使用门槛的角度提出：

目前能真正测试o1能力的，可能只有拥有精英工作经历的博士或顶尖硕士。对普通用户来说，甚至都无法提出足够专业的问题来挑战它 。

社区反思

@Sola对当前社区的风气提出了尖锐批评：

AI社区已经变成了一个只关注性能指标的有毒粉丝圈，像个黑洞一样只进不出，却很少有人真正专注于用现有工具创造有意义的产品和创新 。

@Nifty则呼吁：「 与其批评它的局限性，不如想办法更有效地利用它 」。

请到「今天看啥」查看全文

推荐文章

直播海南 · “收了8000元，把老同学骗去缅甸搞诈骗”，法院判了

昨天

直播海南 · 43岁单身女子被骗250多万！近日连发多起，官方紧急预警！

2 天前

直播海南 · 网友吐槽：用棉花代替真雪！景区道歉了

2 天前

直播海南 · 突发！开曼群岛附近海域发生8.0级地震

3 天前

直播海南 · 张兰微博直播功能被暂停！另有100多个账号被封禁

3 天前

小学数学 · 四年级下册人教版1.2《乘除法的意义和各部分之间的关系》讲解

8 年前

玲珑 · 周末值得买 | 致那个我们热血澎湃的fm音乐年代

7 年前

东莞阳光网 · 天哪！5岁孩子撕钱玩，5万现金成碎片！专家：这是一种锻炼！

7 年前

DeepTech深科技 · 亚马逊开发了一个AI时装设计师，你还在为搭配发愁么？

7 年前

于小戈 · 这50支口红能承包你的前半生！1支都没有还怎么当仙女？

7 年前