回复@谢谢橘子:类似于谐音梗，但是是拼写类似，驯鹿强化学习（Re-20241206111052_宝玉xp的专栏文章_微信文章

回复@谢谢橘子:类似于谐音梗，但是是拼写类似，"驯鹿强化学习"（Reindeer enforcement learning） vs "Reinforcement learning"（强化学习）//@谢谢橘子:最后那个驯鹿笑话的笑点是什么，怎么没看懂[好运连连]

OpenAI 连续 12 天发布会：第一天完整视频（中英文双语字幕）

**Sam Altman**: 你好，欢迎来到OpenAI的12天活动。我们将尝试一些据我们所知没有科技公司做过的事，那就是在接下来的12天里，每个工作日我们都会发布或展示一些我们构建的新东西，并且我们认为从今天开始会有一些很棒的内容。

我们希望你会非常喜欢它。我们会尽量让这个过程既有趣又快速，不会花太长时间，但这也是展示我们一直在做的事情的一种方式，也是我们送给你的一个小小的节日礼物。

今天我们要发布两个更新。第一个更新是发布o1的完整版本。我们一直在非常努力地工作，并且听取了你的反馈。你喜欢o1预览版，但希望它更智能、更快速，支持多模态，并且在指令跟随方面表现更好，还有很多其他的改进。所以我们在这方面投入了很多精力。

对于科学家、工程师、程序员群体，我们认为他们会非常喜欢这个新模型。让我快速向你展示它的表现。这样你可以看到从GPT-4o到o1预览版在数学、编程竞赛、GPQA Diamond等方面的提升。你可以看到o1是一个相当大的进步。它在很多其他方面也有很大提升。但我们非常关心它的基础智能。写代码是人们大量使用的一个领域。

很快我的同事们将展示它的一些功能。他们将展示它的速度表现、它在非常难的问题上的表现、以及它在多模态方面的表现。

第二个更新是ChatGPT Pro。很多现在的ChatGPT高级用户，他们真的用它很多。他们想要比每月20美元能买到的更多计算能力。所以我们推出了ChatGPT Pro。Pro可以无限访问我们的模型，包括高级语音模式等功能。它还有一个新功能叫做o1 Pro模式。

o1现在是世界上最聪明的模型，除了在Pro模式中使用的o1。对于人们遇到的最难问题，o1 Pro模式会表现得更好一点。所以你可以看到它在数学竞赛、GPQA diamond中表现。这些提升可能看起来很小，但在复杂的工作流程中，当你真的在推动这些模型的极限时，它的效果是非常显著的。

让我介绍一些参与构建o1的团队成员。

**Hyung Won Chung**: 嗨，我是Hyung Won。

**Jason Wei**: 我是Jason。

**Max Schwarzer**: 我是Max。

**Max Schwarzer**: 我们都是研究科学家，致力于构建o1。o1非常独特，因为它是我们训练的第一个在回答之前会先思考的模型，这意味着它提供的回答更好、更详细且更正确，比你可能尝试过的其他模型更优秀。

今天开始将向所有Plus用户和即将成为Pro用户的ChatGPT订阅者推送o1，取代o1预览版。o1模型比我们在九月份推出的o1预览模型更快更智能。我们为这个模型进行了非常详细的人工评估。我们发现它犯严重错误的数量比o1预览减少了约34%，思考速度则提高了50%。我们认为这对大家来说会是一个非常显著的改变。

我很喜欢和这些模型交流。作为一名历史爱好者，我会快速展示一个例子。左边是o1，右边是o1预览。我问了一个非常简单的历史问题，列出第二世纪的罗马皇帝，讲一下他们的年代和事迹。这不难，但实际上GPT-4o常常在这个问题上出错。

同样的问题我离线测试了几次，发现o1平均比o1预览版快60%。这可能会有所变化，因为我们正在将所有GPU从o1预览版更换到o1。所以o1思考了约14秒，o1预览版思考了大约33秒。

**Hyung Won Chung**: 是的，发布后，很多人询问多模态输入，所以我们添加了这个功能。所以现在的o1模型，从今天起，能够同时处理图像和文本进行推理。

我设计了这个测试问题，这是一个太空中的数据中心系统。太阳在这里，通过这个太阳能板获取能量。还有一个小型数据中心，GPU机架和泵。在太空中操作有趣的一点是在地球上，我们可以通过空气冷却或水冷却来降温GPU。但在太空中，没有什么介质，所以我们必须将热量散发到太空。这就是为什么我们需要这个巨大的散热器板。

这个问题是要找到下限估计所需的冷却板面积以运行一个一千兆瓦数据中心。模型识别出这是一个未说明但重要的参数，并且选取了正确的温度范围，大约是室温，然后继续进行分析。最后找出了面积是242万平方米，这大约是旧金山陆地面积的2%。

在标准基准如MMMU和MathVista上，o1实际上有顶尖的性能。

**Jason Wei**: 我想简要演示一下ChatGPT-o1 Pro模式。对于难的数学、科学或编程问题，大家会发现o1 Pro模式非常有用。我这里有一个相当具有挑战性的化学问题，o1预览版通常会出错。

问题要求蛋白质符合一个非常具体的标准。共有六个标准，挑战在于每一个都要求非常特定的化学领域知识模型需要回忆的。这些标准都不会直接透露正确答案。因此，对于任何一个标准，可能有很多蛋白质符合该标准。所以模型需要评估所有候选项，然后检查它们是否满足所有标准。

这次模型在53秒内完成。你会看到它最初考虑了不同的候选项，比如最初考虑neuroligin，然后得出正确答案，即retinochistin，这很好。

总结来说，我们从Max那里了解到o1比o1 Preview更聪明且更快速。我们从Hyung Won那里看到o1现在能够同时处理文本和图像。最后，在ChatGPT Pro模式下，你可以用o1思考和推理最难的科学和数学问题。

ChatGPT Pro版本还有更多功能即将推出。我们正在开发更多计算密集型任务以支持更大型任务，为那些希望进一步挖掘模型潜力的人服务。我们仍在为o1模型添加工具，比如网页浏览、文件上传等。我们也在努力将o1引入API。我们将为开发人员添加一些新功能，包括结构化输出、函数调用、开发者消息和API图像理解。

**Sam Altman**: 非常感谢大家。祝贺你和团队完成了这项工作。我们真的希望你喜欢o1和Pro模式，或者Pro订阅。目前我们还有很多内容要推出。明天我们会带来一些针对开发者的精彩内容，并继续前进。

在结束之前，我们能听听你的笑话吗？

**Jason Wei**: 好吧，这是我今早想到的笑话。圣诞老人想让他的大语言模型解决一个数学问题，他努力尝试各种提示词，但没有成功。他最终是怎么解决的？

**Sam Altman**: 不知道。

**Jason Wei**: 他使用了"驯鹿强化学习（Reindeer enforcement learning）"。

**Sam Altman**: 那真是太棒了。

宝玉xp的微博视频

回复@谢谢橘子:类似于谐音梗，但是是拼写类似，驯鹿强化学习（Re-20241206111052

正文

2024-12-06 11:10
本条微博链接