(参考
消息、作文、专家纪要、调研分享;提高认知及信息差
)
分享市场、行业及公司动态,包括投资策略、行业数据库、专家调研、公司纪要;信息超越
99%
的投资者)微信扫码加入体验)
【12 Days of OpenAI】Day 1:正式发布o1模型,推出ChatGPT Pro与o1 Pro模式丨天风计算机
要点总结:(1)o1正式发布,相较于预览版,o1完全版的思考速度快约50%,简单问题不用再慢思考,同时增
加了多模态输入功能。
(2)新发布o1 pro mode,相较于o1思考时间更长,有可能达到1-3分钟,更长的思考时间有望解决更难更复杂的问题;同时o1 pro模式的可靠新更强,考虑4题全对的成功率,o1 pro相较于o1再数学、代码和PGQA的成功率提升接近或超过10%,对于复杂工作流很重要。
(3)OpenAI还在努力为o1模型添加工具使用能力,如网页浏览、文件上传等功能,也在努力将o1引入API,未来还会为开发者添加一些新功能,结构化输出、函数调用和API图像理解等。
(4)推出ChatGPT Pro的订阅模式,单月200美金,可以访问OpenAI的最强工具和模型,包括OpenAI o1、以及o1-mini、GPT-4o和Advanced Voice和o1 pro,这12天中未来还会推出新功能,ChatGPT Pro订阅者可以使用。
事件:
正式发布ChatGPT Pro,一个单月200美元的订阅计划,该计划可以访问OpenAI的最强模型和工具,具体包括(1)无限制地访问最智能的模型OpenAI o1、以及o1-mini、GPT-4o和Advanced Voice;
(2)o1 pro mode,o1的新版本,可以使用更多的计算来更努力地思考并为最困难的问题提供更好的
答案。未来OpenAI希望为该计划添加更强大的计算密集型生产力功能。
o1 pro模式可以产生更可靠、更准确和更全面的响应,特别是在数据科学、编程和案例法分析等领域,与o1和o1-preview相比,o1 pro mode在包括数学、科学和编码在内的具有挑战性的AI benchmarks。o1 pro模式的主要优势是提高了可靠性,OpenAI使用了更严格的评估标准:一个模型只有在四次尝试中全部正确才被认为解决了问题,最终可以看出o1 pro模式的性能和可靠性比o1更强。ChatGPT Pro用户可以通过在模型选择器中选择o1 pro mode来访问此功能,由于生成答案需要更长的时间,ChatGPT将显示进度条,并在用户切换到另一个对话时发送应用内通知。未来,OpenAI也将为Pro添加功能以解锁更多计算密集型任务,未来还将继续为其他订阅者带来许多新功能。
发布会纪要
Sam:你们可以看到从GPT 4.0到o1 preview在数学、竞赛、编码、GPQA、Diamond等方面的提升。可以看出o1是一个相当大的进步,在很多其他方面也更好。但智能是我们关注的重点,特别是编
码性能,这是人们大量使用的一个领域。这些人将演示一些关于o1的内容。他们将向你们展示它在速
度方面的表现,如何处理真正困难的问题,以及多模态方面的能力。
但首先,我想花一点时间谈谈我们今天推出的第二件事。现在很多ChatGPT的高级用户,他们真的经常使用它,并且希望获得每月20美元以上的计算能力。所以我们推出了一个新的层级ChatGBTPro,Pro用户可以无限制地使用我们的模型,还有高级语音模式等功能。它还有一个新功能叫做o1 Pro模式。o1是目前世界上除了用于推广的o1模型之外最智能的模型,对于人们遇到的最难的问题,o1 Pro模式可以让你做得更好一点。这些提升可能看起来很小,但在复杂的工作流程中,当你真正突破这些模型的极限时,这是相当重要的。我再给你们展示一下关于ChatGPT Pro模式的一个功能,人们一直说他们非常想要的一个功能是可靠性,可以看到Pro模式答案的可靠性与o1的比较,这是一个更显著的差异。
ChatGPT Pro每月收费200美元,今天推出,而且在这12天里,我们还有一些其他的东西要添加进去,我们认为你们也会非常喜欢,包括无限制的模型使用和这个新的o1 Pro模式。
研究科学家团队
o1模型比我们9月份推出的o1预览模型更快、更智能。推出后,很多人询问多模型输入的问题,所以我们添加了这个功能。今天上线的o1模型能够同时对图像和文本进行推理。ChatGPT Pro提供无
限制地使用我们的最佳模型,如o1、4o,以及Advanced Voice,ChatGPT Pro还有一种使用o1的特殊方式叫做o1 Pro模式。你可以要求模型使用更多的计算资源,在一些最困难的问题上更深入地思考。我们认为Chat GBT Pro的用户将是ChatGPT的高级用户,那些已经在推动模型在数学、编程和写作等任务上能力极限的人。
(1)思考速度变快
我们也真的认为o1对于日常使用场景会更好,不一定只是非常困难的数学和编程问题。特别是,我们收到的关于o1预览版的一个反馈是它太慢了。如果你向它打招呼,它会思考10秒钟,我们修复了这个问题。o1现在会更智能地思考。如果你问它一个简单的问题,它会很快回答。如果你问它一个非常困难的问题,它会思考很长时间。我们对这个模型进行了一套相当详细的人工评估。与o1预览版相比,它在思考时犯重大错误的频率降低了约34%,但速度快了约50%。我们认为这对你们所有人来说都会是一个非常明显的差异。我是一个历史爱好者,我将给你们展示一个非常快速的演示,例如,我
可能会问这些模型的一种问题。在这里,左边是o1,右边是o1预览版,我正在问它一个非常简单的历史问题。列出公元2世纪的罗马皇帝,告诉我他们的在位时间和事迹。我问了o1这个问题,也问了o1预览版这个问题。我离线测试了几次,发现o1平均比o1预览版快约60%。o1思考了大约14秒,o1预览版思考了大约33秒。
(2)多模态输入
我们知道人们在日常使用场景中非常想要的另一个功能,也是我们收到很多请求的功能,是多模型输入和图像理解。为了说明多模型输入和推理,我用一些手绘图表创建了这个小问题。在这里很难看清,所以我已经拍了这张照片。让我们在笔记本电脑上看这张照片。一旦你将图像上传到ChatGPT,
你可以点击它查看放大版本。这是一个太空中的数据中心系统。所以也许在未来我们可能想在太空中训练人工智能模型。模型只用了10秒钟就思考完了,这是一个简单的问题。让我们看看模型是如何解决它的。
解题过程:功率输入。首先这个1 GW只是在纸上画的。一个关键的事情是,我故意使这个问题不明确,关键参数是冷却面板的温度我没有给出这个参数,这样我们就可以测试模型处理模糊性的能力等
等。所以模型能够识别出这实际上是一个未指定但重要的参数,并且它实际上选择了正确的温度范围,大约是室温。有了这个它继续进行分析,还有很多其他的事情,然后得出了面积,是242万平方米,只是为了让你们了解这有多大,大约是旧金山陆地面积的2%。我认为模型做得很好,做出了很好
的一致假设,使所需的面积尽可能小。这是多模型推理的演示。
(3)o1 pro模式展示
人们会发现o1 pro mode对于解决困难的数学、科学或编程问题最有用。所以这里我有一个相当有挑战性的化学问题,o1预览版通常会答错。对于这些非常具有挑战性的问题,模型可以思考长达几分钟,我认为对于这个问题,模型通常思考的时间从1分钟到最多3分钟不等。所以当模型在思考时,我们必须为人们提供一些娱乐。所以我将稍微描述一下这个问题。然后如果当我说完时模型还在思考,我