专栏名称: 游理游据研究院

分享游戏行业实用资料，追踪行业前沿研究信息，促进行业可持续发展。 Research Institute of the Origin of Game Theory

OpenAI 12日发布会完整版记录

游理游据研究院 · 公众号 · · 2024-12-24 09:00

正文

游戏行业校企合作游学活动需求意向调查

12天发布会每日直播链接：https://openai.com/12-days/

Day 12，12月20日

发布o3和o3 mini模型，暂未开放，可以申请参加openAI安全测试

推出一种新的技术，叫做审慎对齐，用于模型安全。

今天我们将讨论下一个前沿模型，它将被命名为03。还有

O3 Mini，在性能和成本方面确实很出色。今天不会公开发布,好消息是我们将把它们用于公共安全测试,从今天开始你可以申请。随着我们的模型变得越来越强大，我们认真对待安全测试。在这个新的能力水平上，我们想尝试在我们的安全测试程序中增加一个新的部分就是允许想要帮助我们测试的研究人员公开访问。

03在编码还有数学上比o1还要强很多

ARC AgI是2019年在关于智力测量的论文中开发的基准，被认为是通用智能的一个重要里程碑，独特之处在于每项任务都需要不同的技能。因为ARC AgI想测试模型在飞行中学习新技能的能力。我们不只是想重复已经记住的东西。ARC AgI版本1花了5年时间才从0%提高到5%，并采用了领先的前沿模型。今天我非常兴奋地说，03已经获得了我们在低计算上验证的新的最先进的分数。o3的得分为75，当我们要求03思考更长时间，并且我们实际上提升到高计算时，03能够得分85.7%。这一点尤其重要，因为人类的表现与85%的阈值相当。所以这是一个重要的里程碑。

我们正在非常努力地对这个模型进行培训，以便在模型之上进行一些安全干预。我们现在正在做大量的内部安全测试。但这次我们也开放了外部安全测试，可以去我们的网站申请

我们推进了我们的安全计划。这是一种新的技术，叫做审慎对齐。通常，当我们在我们的模型上进行安全培训时，我们试图了解什么是安全的，什么是不安全的决策边界。通常只是通过展示纯粹的例子：这是一个安全的提示，这是一个不安全的提示，但我们现在可以利用模型中的推理功能来找到更准确的安全边界。

Day 11，12月20日

推出ChatGPT桌面应用和其他应用协作能力

ChatGPT桌面应用可以与多种应用（如Warp终端、Xcode、Notion、Apple Notes、Quip等）协作，编写代码、生成图表、撰写文档等，可以在协作中使用选择不同模型（如O1和O1 Pro来处理复杂的编码、高级数据分析问题）。引入了高级语音模式，允许用户通过语音交互与其他应用协作

大约六个月前推出了Mac桌面应用程序，几个月前推出了Windows桌面应用程序。随着我们的模型变得越来越强大，ChatGPT将越来越具有代理能力。这意味着ChatGPT将超越简单的问答开始为你工作。我们已经在Canvas中看到了这一点，你正在与ChatGPT协作以帮助改进你的写作和代码，这种转变将会持续。ChatGPT将代理做越来越多的事情，桌面应用程序也是其中的重要组成部分，因为作为桌面应用程序，你可以做的事情比在浏览器标签页中多得多。在你允许的情况下，能够看到你屏幕上的内容并自动化你在桌面上进行的许多工作。进入2025年时我们将会有更多关于这方面的信息要说，但我们今天也推出了一些令人兴奋的东西。

这是完全原生的Mac版ChatGPT桌面应用程序。作为原生应用，它不占用太多资源，它存在于自己的窗口中，我可以在不切换上下文的情况下使用它。有一个键盘快捷键，option + 空格键，可以非常快速地显示和隐藏ChatGPT

当我点击这个按钮时，我将看到我计算机上当前正在运行的、ChatGPT可以与之交互的所有应用程序。首先点击Warp与其交互，“写一个命令，获取过去两个月每天的提交次数。”

它可以与ChatGPT中的所有其他功能和所有其他模型一起工作。4o决定使用高级数据分析来处理一些数字并给我一个条形图。

在IDE中与代码交互,在Xcode中协助编写代码

可以使用模型选择器切换到其他模型，比如o1 pro来完成更复杂的编码问题

我喜欢用ChatGPT的另一个原因是它可以帮我写作，

今天我们要宣布支持三个新的应用：Apple Notes、Notion和Quip

在协作写作中ChatGPT可以搜索网络，如果我想了解更多信息，我可以点击链接。ChatGPT还可以读我文档的其他部分，学习我的风格。

不仅可以向模型输入文字，还可以用新的高级语音模式支持。使用右下角的图标来请出我们的特别来宾圣诞老人

Day 10，12月19日

推出给ChatGPT打电话和通过WhatsApp和ChatGPT沟通的能力

OpenAI 推出了一种ChatGPT对话的新方式，拨打电话号码：+1-800-242-8478

美国用户每月可拨打该号码享受15分钟的免费通话时间。

全球用户都可以通过 WhatsApp 向该号码发送消息。

现在通过电话或者WhatsApp使用ChatGPT还没有互联网搜索以及图像功能，这些功能仅在ChatGPT移动应用程序和网站上可用。未来会提供登录ChatGPT账号的能力，让用户可以使用其他高级功能。

Day 9，12月18日

更新面向开发人员的新工具

向开发人员推出OpenAI o1、新的自定义工具和升级，包括：

1、API中的 OpenAI o1 ：支持函数调用、开发者消息、结构化输出和视觉功能。

2、实时API更新：包括简单的 WebRTC 集成、GPT-4o 音频降价 60% 以及以以前音频速率的十分之一支持 GPT-4o mini

3、偏好微调(Preference Fine-Tuning)：这是一种新的模型自定义技术，可以更轻松地根据用户和开发人员的偏好定制模型。

4、新的GO和Java语言API，在beta版可用

API 中的 OpenAI o1

OpenAI o1是我们的推理模型，旨在以更高的准确性处理复杂的多步骤任务，现在向tie5级别的开发人员推出o1 ，之前是o1-preview，开发人员已经使用它来构建代理应用程序，以简化客户支持、优化供应链决策和预测复杂的财务趋势。

O1 可用于生产，具有支持实际使用案例的关键功能，包括：

函数调用：将 o1 无缝连接到外部数据和 API。

结构化输出：生成可靠遵守自定义 JSON 架构的响应。

开发人员消息：指定模型要遵循的说明或上下文，例如定义语气、样式和其他行为指导。

视觉功能：对图像进行推理，以解锁视觉输入很重要的科学、制造或编码中的更多应用。

更低的延迟：对于给定请求，o1 使用的推理令牌平均比 o1-preview 少 60%。

新的 'reasoning_effort' API 参数允许控制模型在回答之前思考的时间。

对 Realtime API 的改进

实时 API使开发人员能够创建低延迟、自然的对话体验。它非常适合语音助手、实时翻译工具、虚拟导师、交互式客户支持系统，甚至是您自己的虚拟圣诞老人（在新窗口中打开）.今天，我们发布了一些更改，以解决开发人员的一些最常见的请求：直接 WebRTC 集成、降低定价以及更好地控制响应。

WebRTC 支持：即将推出 Realtime API对WebRTC 浏览器的支持。WebRTC 是一种开放标准，可以更轻松地跨平台构建和扩展实时语音产品，无论是基于浏览器的应用程序、移动客户端、IoT 设备还是直接的服务器到服务器设置。我们的 WebRTC 集成旨在实现在实际条件下的流畅和响应迅速的交互，即使网络质量参差不齐。它处理音频编码、流式处理、噪声抑制和拥塞控制。

使用 WebRTC，您现在可以添加实时功能，只需几行 Javascript：

更低的成本获得新的 GPT-4o 和 GPT-4o mini实时快照

改进了语音质量，提高了输入（尤其是对于听写数字）并降低了成本。将音频token价格降低了 60%，降至 40 美元/1M 输入oken和 80 美元/1M 输出oken。缓存音频输入成本降低 87.5%，降至 2.50 USD/1M 输入oken。

我们还将 GPT-4o mini 作为 ''.GPT-4o mini 是我们最具成本效益的小型模型，为 Realtime API 带来了与 GPT-4o 相同的丰富语音体验。GPT-4o 迷你音频价格为 10 美元/1M 输入token和 20 美元/1M 输出token。文本令牌的价格为 0.60 美元/1M 输入token和 2.40 美元/1M 输出token。缓存的音频和文本都需要 0.30 美元/1M token。

更好地控制响应

正在向 Realtime API 提供以下功能，以便更轻松地提供卓越的语音驱动体验：

并发带外响应使内容审核或分类等后台任务能够在不中断用户语音交互的情况下运行。

自定义输入上下文指定要将哪些对话项作为模型输入。例如，仅对用户的最后一句话进行审核检查，或重新使用过去的回复，而无需永久更改会话状态。

控制响应时间使用服务器端语音活动检测 (VAD) 而不自动触发响应。例如，在手动发起语音回复之前，收集必要的数据（如帐并将其添加到模型的上下文中，从而更好地控制时间和准确性。

增加最大会话长度15至30分钟

偏好微调(Preference Fine-Tuning)

微调 API 现在支持偏好微调以便根据用户和开发人员的偏好轻松定制模型。偏好微调对于语气、风格和创造力很重要的主观任务尤其有效。偏好微调和监督微调之间存在一些关键差异:

最后，我们将推出两个新的官方 SDK，在 beta 版中用于Go和Java，除了我们现有的官方 Python、Node.js 和 .NET 库我们的目标是让 OpenAI API 易于使用，无论您选择哪种编程语言。

Day 8，12月14日

升级搜索功能，向免费用户推出

纪要：

两个月前我们对付费用户推出了搜索使ChatGPT能够访问实时信息，并能够在Web上搜索答案。

今天要宣布三件事

1、对搜索做了一些改进，让它更快，在移动设备上更好，有新的地图体验。

2、整合了搜索和高级语音模式，现在可以在与ChatGPT交谈时进行搜索

3、最重要的是为所有免费ChatGPT用户提供搜索

如果我在这里按下回车或发送，ChatGPT将自动决定这个问题是否需要来自网络的最新信息。但是我们还在Web图标中添加了搜索。如果您明确单击此按钮，ChatGPT将始终使用来自Web的最新信息

它在网上搜索，你会得到一个答案。可以直接在ChatGPT中看到丰富的视觉图像和列表。

在ChatGPT中可以直接播放搜到的视频

可以在浏览器中使用ChatGPT作为默认搜索引擎

从浏览器栏尝试酒店预订

移动端APP搜索餐厅，有地图导航

高级语音模式对话中搜索

Day 7，12月14日

更新项目功能, 可以上传文件，设置自定义指令，并为该项目中的所有对话定制ChatGPT

目前向Plus、Pro和Teams用户推出。会尽快把它发布给免费用户。

展示了用项目功能做一个人网站

纪要：

今天推出了ChatGPT中的projects。当你开始一个项目时，你可以上传文件，你可以设置自定义指令，并为该项目中的所有对话定制ChatGPT。

ChatGPT对话的所有部分比如搜索和画布，都是项目的一部分。或者你可以跳过所有花哨的东西，只使用项目作为文件夹来组织对话

要创建一个新的项目只需转到左侧栏并单击“加号”,如果需要，我可以编辑项目标题。我可以选择一个漂亮的颜色，这有助于我在侧边栏中自定义它。然后我可以添加文件或说明

可以搜索一个相关的聊天，从侧边栏将其添加到项目中

对于秘密圣诞老人项目，我给它加了一个表情符号，选择了喜庆的颜色我收集了与此项目相关的文件，包括秘密圣诞老人提交内容，还设置了规则、礼物预算和活动详情。

我们也拥有搜索网络的能力。在网上搜索节日帽子。

在项目中内置了canvas支持

一个房屋维护项目，我用它来记录我公寓里我记不住如何去做，或者我是否已经做过的事情。

它从我的维护日志中提取了我的冰箱笔记的信息。根据维修记录，我的冰箱需要每6个月更换一次。我从三月开始就没做过了。所以我肯定是过期了。所以我现在就得回家做这件事。所以我也可以问，我该怎么做？它会从我的冰箱维护记录和我的冰箱记录中提取信息并告诉我如何去做

我想给我的个人网站做一点美化。我觉得它有点过时了。所以我浏览了一下网页，寻找我认为可能有趣的模板。我找到了一个我喜欢的，我打算修改它以适应我的需要，这样我就不必手动编写所有这些代码了

我为此创建的项目:Tommy D的个人网站，在项目文件中，你可以看到我已经上传了我的简历、我的社交链接、一些关于我自己的评价，并且我还上传了Astro模板格式的规范。我告诉模型，它需要特别注意这些括号格式

能够看到它正在编辑Canvas信息, 修改了模板，加入了所有关于我个人的信息

让它生成一个片段，并引用凯文·惠勒的一句话,项目能够理解所有可用的文件，并只生成一个特定的部分。我可以把它复制回去。它没有使用画布来实现这种体验，因为代码非常小，但这是项目的强大功能之一，

它从今天开始向Plus Pro和Teams用户推出。我们会尽快把它发布给我们的免费用户。它将在新的一年早些时候进入企业和教育领域。

Day 6，12月13日

视频高级语音和圣诞模式

纪要：

我们将把视频引入高级语音模式可以通过Chat GPT将实时视频和实时屏幕共享带到您的对话中

概括地说，你已经可以用先进的方式交谈并大声聊天，就像你的同事或朋友一样。高级语音用户天生就是一个模型的多模态。这意味着它直接接受你的音频，理解它，并直接输出音频。

在50多种语言中，使用高级语音的对话具有更自然的对话节奏、情感深度和语调。从今天开始，将以先进的方式推出视频和屏幕共享，以便您可以与ChatGPT共享实时视觉环境，使您的对话更加丰富和有用。

测试一下。我想要它教我怎么倒咖啡

推出圣诞模式，在12月剩下的时间里，你可以直接和圣诞老人聊天，你可以问圣诞老人任何关于他在北极生活的问题。好奇小精灵们在做什么，或者作为父母和好奇的孩子们一起寻找一个有趣的圣诞故事。圣诞老人会用他标志性的快乐声音实时回应

在主屏幕上找到圣诞老人非常简单。请留意雪花图标

Day 5，12月12日

苹果发布iPhone和iPad以及Mac OS的IOS中的ChatGPT集成

纪要：

我们有三种不同的集成：首先是Siri，当Siri认为它会有帮助时通过将任务交给ChatGPT，它可以直接将其移交。

其次是书写工具,Apple Intelligence中的书写工具可以让您提炼文档并对其进行总结。也可以使用ChatGPT从头开始编写文档。

我们还在iPhone 16上安装了相机控制，它可以让你调用视觉智能，你可以使用ChatGPT来了解更多关于你正在看的东西的信息

第一件事是你必须启用苹果智能。将进入设置，新的ChatGPT扩展现在可用。打开它时，您将能够启用ChatGPT登录到您的帐户。

任何时候Siri都会想，询问ChatGPT是个好主意，它会在你发送信息之前提示你这样做。您还可以访问应用程序，可以更新，安装或直接打开。回到我们的主屏幕。我觉得我们在这里有节日的气氛。所以让我们组织一个圣诞聚会吧。

语音问Siri你能让ChatGPT为我们组织一个圣诞晚会吗？

添加emoji表情到列表

让我们制作一张专辑封面。在封面上加一条围巾。

视觉智能部分：我在相机控制按钮上按了一段时间，我已经设置好了视觉智能。我将按下这个询问按钮，它将直接询问纹身PT。它要做的第一件事就是识别正在发生的一些事情

我们在举办圣诞节毛衣比赛，miadad在左边，dave在中间，sam在右边，请排序谁最有趣

Mac：我们已经在MacOS 15 到Sequoia中启用了Apple Intelligence，这是我们以前没有的chatPT扩展。就像在iPhone或iPad上一样，你可以使用这个完全匿名的帐户。我们在这里有一个我们已经链接的帐户。真正酷的是，现在我启用了Apple Intelligence，我可以从任何应用程序调用Siri或编写工具。而且调用Siri非常简单。我现在禁用了hi Siri但现在可以在Siri上打字。如果你点击右上角的小Siri图标，或者按两次命令键，就会出现小Siri提示

任何时候Siri认为这是一项复杂的任务，也许我应该得到ChatGPT的帮助。它会要求确认，然后得到我们超级强大的模型的帮助来实现它，这里是openai o1的论文,49页PDF我在预览中打开了它，就像在任何应用程序中一样，我只需双击命令键就可以向Siri调出chatgpt询问他处理我的问题，比如他们是如何让这个模型如此擅长编码和出色的？这为我节省了不少时间

基于pdf内容做一个饼图，显示每种技术对擅长编码的影响。

我们对这次发布感到非常兴奋。这个按钮使与chatgpt交谈变得非常容易。我们希望你喜欢它。

Day 4，12月11日

升级了Canvas，对所有用户开放（包括免费用户）

支持Python代码在canvas中运行，并可以调试错误

支持在自定义的GPTS中使用canvas功能

示例：

并排协同编辑文档，让canvas协助写圣诞小精灵故事，并添加表情

可以让GPT提出修改意见,示例让GPT从物理学教授得到的角度对文章添加批注和提出修改建议,

支持Python代码在canvas中运行，并可以调试错误

在自定义GPTs里引入canvas: 圣诞老人的工具，帮助他在画布上写下他收到的信件的初稿。对你的书面句子的每一个回应，独特的风格和幽默。你的工作是使用画布工具写下对信件的回复。

Day 3，12月10日

正式发布视频生成模型Sora、Sora Turbo

增加了功能包括Explore/Recut/storyboard/Loop/Remix等

纪要:我们要推出的视频产品sora对openai很重要，原因有很多，但我在这里只讲三个。

第一，我们喜欢为创意人员制造工具。这对我们的文化很重要。我们希望人类将如何使用人工智能是很重要的，特别是这一点，我们看到早期测试者之间出现了一种新的合作，创造性的动态，我们认为这表明了一些关于人工智能创造性工具以及人们将如何使用它们的有趣之处。

第二，我们不希望世界只是文本。如果人工智能系统主要是通过文本进行交互。我想我们漏掉了一些重要的东西。我们想要AI是能够理解视频，能够生成视频。我认为这将深刻地改变我们使用电脑的方式。

第三，这对我们的AGI路线图至关重要。视频将是我们学习的重要环境。人工智能将学习很多关于如何做我们在世界上需要的事情。

我们在美国和大多数国家都推出了Sora。今天晚些时候，你可以在sora.com上访问该模型。这是一个全新的产品体验，如果你有一个chatgpt Plus或Pro帐户。你不必为sora支付额外的费用如果你有一个plus订阅

Plus 用户：最多 50 个优先视频（1000 个积分）分辨率高达 720p，时长为 5 秒

Pro 用户：最多 500 个优先视频（10000 个积分），无限 relaxed 视频，分辨率高达 1080p，持续时间为 20 秒，可并发生成 5 个，下载无水印

我们将推出Sora Turbo。这是一个新的高端加速版本。它拥有我们今年早些时候在世界模拟技术报告中谈到的所有功能。这包括从文本生成视频，动画图像，以及大量的视频到视频功能，如重新混合成新的样式，在时间上向前和向后扩展等等。这个早期版本的Sora会犯错误。它并不完美，但它已经达到了我们认为它对增强人类创造力非常有用的程度

Explore是激发灵感的地方。这是一个由社区共享的视频源，每个人都可以聚在一起，探索这一强大的新模式的功能。我们知道这些模型，尤其是在你第一次使用它们的时候，很难理解你能用它们做的一切。所以创造一个空间，让人们可以聚在一起，学习，分享技术，分享方法，

你可以从所有这些精彩的视频中获得灵感。如果你看到一个你特别感兴趣的，你可以点击查看它。它将向您展示用于创建此视频的确切方法，无论是简单的文本提示、图像扩展、视频扩展，还是我们其他更强大的创意工具。您可以采用这种方法，并学习如何将其纳入您自己的创意工作流程

library可以把这里看作是你在sora的大本营，或者你可以看看你所有的生成。你可以在这里对视图进行切片，有几种不同的方式，网格视图，列表视图。您可以在收藏夹中创建文件夹。您可以通过简单地用文本描述或上传图像来创建视频。

在我们开始之前，我想谈谈你将在这里看到的一些选项。宽高比。所以SORA可以产生从水平到垂直的纵横比、可以生成从5秒到20秒的视频。您还可以一次生成多个版本。

storyboard:今天我们很兴奋地谈论一个全新的，创造性的工具，它仍然处于非常早期的阶段。我们称之为故事板的东西，它可以让你在整个序列中使用多个动作来指导视频。在屏幕的顶部，您可以看到故事板卡。在这里，您将描述环境、角色以及您希望在视频中的特定点发生的动作。下面是时间线。你可以看到我的整个剪辑的轮廓，这是我将在我的视频中排列动作的地方。下面是刚刚完成的创建设置。我将返回到故事板，并在场景中设置我的第一个故事板卡。

我会说一只美丽的白鹤站在小溪里，给它一条黄色的尾巴，站在小溪里。所以在这里我可以想写多少就写多少。我写得越少sor越会补充细节。我写得越多sora就会越坚持我的方向。所以在这个视频中，我希望这只鹤一开始就站着，然后把它的头浸在水里，挑出一条鱼。所以我会回到我的时间线。我可以点击我的剪辑轮廓内的任何地方来添加额外的卡片，并给出这些操作。

现在可以看到我的时间线的开始。我已经设定了场景。然后在5秒钟的时候，奶油会把它的头浸入水中。你会注意到，在我的剪辑的轮廓中，这两张卡片之间有空间。该空间对于SORa连接第一组操作和第二组操作非常重要。我可以随时调整我想要这些行动发生的地方，但给予足够的时间来连接这些想法是非常重要的。如果你想继续拍摄。你也可以让它进行电影剪辑，把它们移近或移远，让sora做更多的细节填充。

我还想展示一个故事板功能。就是用图像来制作视频。因此，在第一个故事板卡中，我将继续上传我桌面上的图像。这个图像是一座灯塔。你可以看到SORA自动将第一张图像放入第一张卡片中，然后它创建了一张全新的卡片。这是一个续篇标题。SORA已经看过了这张图片，它在理解我们可能想要用这张图片做的运动方面增加了额外的内容。它已经填写了一个标题，继续把这张图片变成一个美丽的视频。

我要继续使用另一个编辑工具，叫做ReCut。这让我可以把我的视频，修剪下来，并在故事板中扩展它，甚至有更多的方向。点击重新剪辑带我进入了一个新的故事板，排序导入了这个起重机的视频。现在我可以在时间线上看到，我的视频在这里，我可以通过它来回顾它。我还可以修剪视频。

Loop: 我们的一个很棒的功能是，如果你真的喜欢一个生成，你可以告诉sora我想让它不断重复，因为它太美了。你可以用循环来实现。所以如果你点击进入循环Sora，你希望这个循环的起点在哪里？希望它在哪里结束？sora将填补空白，创造这种无缝的，重复的场景。你有几个选择。如果开头和结尾已经非常相似，我可以添加更少的帧，或者你可以告诉它添加大量的帧来尝试连接，也许是两个完全不同的开头和结尾。

Remix：你可以把混合看作是给sora两个场景，sora将创造一个新的场景，这是这两个场景的一个连贯版本。这几乎就像把两个视频在另一个维度上粉碎在一起，然后把它带回这个维度。我从来没有见过这样的东西，直到我用我们的模型混合。我们可以把机器人和毛茸茸的猛犸象混合在一起，这可能会很酷。

Day 2，12月7日

发布强化微调，将于明年公开推出

展示了在科学研究领域如罕见病基因预测上的作用

演示通过简易的强化微调让o1 mini的性能超过o1

链接：https://www.bilibili.com/video/BV1kKiCYsELj

纪要:

今天我们很高兴预览我们模型定制程序的最新进展。他们将允许用户在自己的数据集上微调一个模型。这不是标准的微调。这是强化微调，利用的是强化学习算法，将我们从高级高中水平带到了专家博士水平，用于您自己的用例。这是我们明年将公开推出的产品的预览。但是如果你是一所大学、你的研究人员或你的企业，我们稍后会给你一些关于如何访问我们程序的信息。它允许您将您的黄金数据集转化为独特的产品

我们很高兴能为我们的o1系列模型、强化、思维调节或简称rft引入这种新的模型定制方式。开发人员、研究人员和机器学习工程师将首次能够使用强化学习来创建专家模型，这些模型能够在各自领域内的特定任务中表现出色。我们认为，任何需要在人工智能模型方面拥有深厚专业知识的领域都会受益。如果你从事法律金融、工程、保险等行业，那么这个职位适合你。例如，我们最近与汤森路透合作，使用强化、微调o1 mini作为他们的联合律师的法律助理。这个工具帮助他们的法律专业人员完成一些最具分析性的工作流程。

你们中的一些人会熟悉我们去年年初推出的监督微调api，监督微调非常强大。你要做的是让模型复制它在输入、文本或图像中发现的特征。这太棒了。如果你想改变模型的音调、风格或响应格式。对于强化微调，你不仅仅是在教模型模仿它的输入。你教它做的是学会在自定义域上以全新的方式推理。其工作原理是，当模型看到问题时，我们给它空间来思考问题。然后，我们根据模型对最终答案进行评分。然后利用强化学习的力量，我们强化了导致正确答案的思维方式，并抑制了导致错误答案的视线思维方式。您将看到的是，作为几十个示例，该模型将学习以新的有效方式对自定义域进行推理。只用12个例子就能做到这一点，这不是你可以通过监督微调来做到的。我们的定制平台模型将首次支持强化学习。

一个令人兴奋的应用的领域是科学研究，其中一个研究领域是使用计算方法来了解罕见疾病的遗传原因。与名字相反，罕见的遗传病实际上并不罕见。任何一种罕见病都是罕见的，但如果你把它们放在一起，它们实际上很常见。全球有3亿人患有罕见疾病。更重要的是，这些人在发现自己的病情之前，往往要经历数月甚至数年的漫长诊断之旅。因此我们正在研究更好的计算工具和方法，以真正研究什么是重要的，并帮助我们理解和治疗这些疾病。我们在学术环境中开展工作，更多地了解这种罕见疾病及其病因。希望能够推进这些人的医疗保健。现在评估你的疾病有点困难，因为你可能必须有两件事。你必须对医学方面有一定的专业知识。你还必须对生物医学数据进行系统的推理。在这个领域，我们认为o1模型确实可以帮助我们提高推理能力。

我们的大语言模型具有领域知识，o1模型是真正的系统推理器。所以现在似乎有一种很好的计算方法来解决其中的一些问题。我们真正做的是从数百篇关于罕见病的病例报告的科学出版物中提取疾病信息。我们对信息进行了某种程度的治愈评级，这是患者身上存在的体征和症状列表，这些体征和症状被排除在患者身上，然后是他们所患的疾病。重要的是，在这次对话中，导致这些书中问题的致病基因发生了突变。所以你和一些医生正试图弄清楚，根据患者的症状，是什么基因发生了突变，导致了这些症状。我们一直在与openai团队合作开发一种训练模型，这是唯一一种更有效地推理疾病原因的模型。

我们现在要给你一个强化的预览，在工作中进行微调，我们要让mini版在这项任务上超过o1的性能。因为o1 mini比o1更小、更快、更便宜。使用数据集，可以大大提高o1和mini在这项任务中的表现，在给定症状列表的情况下，试图预测哪个基因可能导致遗传性疾病。为了概述这一过程，我们将首先查看用于训练模型的数据集和用于评估模型的评分器。然后我们将启动一项关于openai的培训工作，培训基础设施。最后，我们将评估由此产生的微调模型。所以我们可以看到它是如何比我们开始的基础模型有所改进的。我们要做的是选择强化微调。现在我们要训练01，所以我们选择它作为基础模型。现在我们需要上传一个训练数据集，现在训练数据集只是json 文件，文件中的每一行都是你想要训练模型的示例。

OpenAI 12日发布会完整版记录

正文

请到「今天看啥」查看全文