专栏名称: Datawhale
一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。
目录
相关文章推荐
上海一中法院  ·  祝贺!获奖! ·  3 天前  
上海一中法院  ·  祝贺!获奖! ·  3 天前  
信息平权  ·  明年AI应用到什么量级? ·  4 天前  
信息平权  ·  明年AI应用到什么量级? ·  4 天前  
51好读  ›  专栏  ›  Datawhale

OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

Datawhale  · 公众号  · 互联网短视频 科技自媒体  · 2024-12-06 22:37

正文

 Datawhale分享 

最新:OpenAI,来源:机器之心

一天前,OpenAI 官方 X 账户的一条推文将 AI 社区的期待值拉满了。这家世界头部 AI 公司宣布将在未来的 12 天进行 12 场直播,发布一些「大大小小的新东西」。


这是 OpenAI 准备的圣诞礼物。


至于这些「大大小小的新东西」究竟是什么,各路网友都纷纷给出了自己的预测,大致总结一下主题包括 Sora、完全体 o1、更长的记忆能力、实时视觉能力、Canvas 集成、高级语音模式、Computer Use、智能体甚至 AI 硬件设备等。但究竟如何,还得等着 OpenAI 自己来揭示。

现在,OpenAI 的第一场直播来了!

总结来说,两件事:期待已久的 o1 完全体(Full Version)、200 刀一个月的 ChatGPT Pro。


OpenAI 著名研究科学家 Noam Brown 发帖表示,o1 完全体不仅能数出「strawberry」里有几个「r」(此前的模型经常在这一问题上栽跟头),还能更进一步,写出「一篇不使用字母『e』的关于草莓的三段短文」(GPT-4o 也尝试了这个任务,但第一个词就失败了)。



整场直播时间很短,大概 15 分钟,参与者包括 CEO Sam Altman、研究科学家 Hyung Won Chung 和 Max 以及思维链提出者 Jason Wei。


视频:https://www.youtube.com/watch?v=iBfQTnA2n2s

o1 完全体

在今年 9 月份,OpenAI 发布 o1-preview 版本时,就曾对 o1 的技术思路进行了介绍:o1 是使用大规模强化学习训练并使用思维链进行推理的系列模型。

今天正式发布了 o1 完全体,也放出了新的 o1 System Card:https://cdn.openai.com/o1-system-card-20241205.pdf

整体而言,o1 完全体是一款更擅长编程、数学和写作的更快且更强大的推理模型,并且现在也增加了对图像上传的支持,这让 o1 可以使用视觉数据来生成更详细和更有用的响应。

OpenAI 表示,OpenAI o1 的思维更加简洁,因此响应时间比 o1-preview 更快。测试表明,o1 的性能也优于 o1-preview,将困难的现实问题的重大错误减少了 34%。


除了完全体 o1,还有个更轻便的 o1-mini 版本,在编码方面特别高效。

如果你愿意花更多钱,升级到 ChatGPT Pro,还可以体验到 o1 pro 模式。这是 o1 的一个更高级版本,使用更多的计算进行更深入地思考,解答更难的问题。

与 o1 和 o1-preview 相比,o1 pro 模式在数学、科学和编码等 ML 基准测试中表现更佳。OpenAI 发言人表示:「在外部专家测试人员的评估中,o1 pro 产生了更可靠、更准确、更全面的回应,尤其是在数据科学、编程和判例法分析等领域。与 o1 和 o1-preview 相比,o1 pro 模式在数学、科学和编码方面具有挑战性的机器学习基准测试中表现更好。特别是,我们发现在更容易反映日常编程查询的编码竞赛题中,错误率降低了 75%。」


为了突出 o1 pro 模式的主要优势(提高可靠性),OpenAI 使用更严格的评估设置:只有当模型在四次尝试中有四次能够正确回答问题(4/4 可靠性),而不是一次,才被认为解决了问题。


正在尝鲜的用户们也在陆陆续续发掘出有关 o1 的更多技术细节,比如所支持的最大 token 数量为 196608。


具体效果如何?

直播中,OpenAI 进行了演示。

首先,OpenAI 通过一个基于人工鸟巢图像生成安装手册的示例演示了 o1 基于视觉数据进行推理的能力:


识别手绘图像也问题不大。对于一张手绘的太空太阳能驱动的数据中心示意图,o1 轻松估计出了其散热器表面积并解答了两个问题:如何处理太阳和深空环境,以及这里如何体现了热力学第一定律?并且整个推理过程仅需 10 秒钟。



推理速度方面,在解答「列出二世纪的罗马皇帝的在位时间和成就」的任务中,o1 完全体的推理时间大概为 14 秒,而 o1-preview 大概需要 33 秒。并且 Altman 表示实际部署之后的速度还会更快。


那么,o1 处理更复杂问题的表现如何呢,比如能否基于多条描述推断出所描述的蛋白质种类?(注意这个问题之前的 o1-preview 无法正确解答。)

最终,在 pro mode 下,o1 完全体在思考了 53 秒之后得到了正确答案,并且还可以在 canvas 中了解更多细节。

 
相当昂贵的 ChatGPT Pro

OpenAI 宣布为其人工智能聊天机器人平台 ChatGPT 推出新的订阅套餐 ——ChatGPT Pro,可以无限制地访问 OpenAI 的所有模型,包括其 o1「推理」模型的完整版本,但价格非常昂贵 —— 每月 200 美元。


OpenAI 技术人员 Jason Wei 表示:「我们认为 ChatGPT Pro 的受众将是 ChatGPT 的高级用户,他们已经在数学、编程和写作等任务上将模型的能力推向极限。」

与大多数 AI 不同,o1 和其他推理模型可以有效地进行自我事实检查。这有助于它们避免一些通常会使模型出错的陷阱,但缺点是通常需要更长的时间才能找到解决方案。o1 通过任务进行推理、提前规划并执行一系列行动来帮助模型梳理出答案。

OpenAI 在 9 月份发布了 o1-preview,现在新版本 o1 的功能更加强大。

访问 o1 不需要订阅 ChatGPT Pro 套餐。所有 ChatGPT 付费用户都可以通过 ChatGPT 模型选择器工具访问 o1。OpenAI 表示,计划在未来几个月内增加对网页浏览、文件上传等功能的支持。


当然,升级到 ChatGPT Pro,还可以体验到 o1 pro 模式。o1 pro 模式将「使用更多的计算来为最困难的问题提供最佳答案」。

ChatGPT Pro 用户可以通过在模型选择器中选择「o1 pro 模式」并直接提问来访问该功能。由于生成答案需要更长的时间,如果切换到另一个对话,ChatGPT 将显示进度条并发送应用内通知。

o1  pro 模式可能只是延长了模型在给出答案之前的「推理」时间。OpenAI 在其 o1 预览版公告中表示,它的目标是试验推理时间长达数小时、数天甚至数周的 o1 模型,以进一步提高其推理能力,而这很可能是朝这个方向迈出的一步。

OpenAI 还宣布了一项捐赠计划,向知名机构的医学研究人员赠送 10 套 ChatGPT Pro。该公司表示,他们未来还计划在「各个学科」提供更多捐赠。

为了增加吸引力,ChatGPT Pro 还包括无限制访问 GPT-4o 和高级语音模式(ChatGPT 的人机对话功能)。ChatGPT Plus 用户有每日使用时间限制,而免费用户仅限于预览。

然而,ChatGPT Pro 是 OpenAI 目前最昂贵的订阅服务,是 ChatGPT Plus 的 10 倍。考虑到许多用户已经认为 ChatGPT Plus 太贵,ChatGPT Pro 可能很难卖出去。

实际上,高级 ChatGPT 的涨价传闻由来已久。据《纽约时报》报道,到 2029 年,OpenAI 预计 ChatGPT Plus 的月收费将达到 44 美元。根据 The Information 的报道,该公司还萌生了超高价商业订阅的想法,这些订阅可提供额外的功能,并可访问正在开发的模型。

现在看来,这些传闻基本属实。

这些举措反映出投资者对 OpenAI 缩小亏损的压力。据《纽约时报》报道,虽然该公司 8 月份的月收入达到了 3 亿美元,但 OpenAI 预计今年将亏损约 50 亿美元。人员、办公室租金和 AI 训练基础设施等开支都是亏损的根源。据报道,仅 ChatGPT 一项就一度让 OpenAI 每天损失 70 万美元。

OpenAI 的第一天直播最终在一个与圣诞相关的笑话中结束:

圣诞老人希望使用 LLM 来解决数学问题,他努力使用了很多提示词,但效果都不好,那么他最终怎么解决了这个问题呢?

答案是他使用了 reindeer forcement learning。


对于今天的发布,你怎么看呢?

参考链接:https://techcrunch.com/2024/12/05/openai-confirms-its-new-200-plan-chatgpt-pro-which-includes-reasoning-models-and-more/
https://www.youtube.com/watch?v=iBfQTnA2n2s
一起“三连

推荐文章
上海一中法院  ·  祝贺!获奖!
3 天前
上海一中法院  ·  祝贺!获奖!
3 天前
信息平权  ·  明年AI应用到什么量级?
4 天前
信息平权  ·  明年AI应用到什么量级?
4 天前
二更食堂  ·  “我不想谈恋爱。”
7 年前
新身体  ·  套套选的好,一夜9次都嫌少!
7 年前