OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

DataFunTalk · 公众号 · · 2024-12-07 10:19

主要观点总结

OpenAI在“双12”直播中展示了新功能强化微调（Reinforcement Fine-Tuning），使用极少训练数据即可在特定领域创建专家模型。CEO奥特曼对此表示惊喜，并期待人们的应用。强化微调步骤简单，并在生物化学、安全、法律和医疗保健领域取得成功。该技术在特定任务上可能带来突破，但不适用于所有任务。网友对OpenAI的新功能充满期待，对可能的Sora发布也有所猜测。

关键观点总结

关键观点1: OpenAI新功能强化微调（Reinforcement Fine-Tuning）

使用极少训练数据在特定领域轻松创建专家模型，最低只需要几十个例子就可以。

关键观点2: 强化微调效果

微调后的o1-mini模型得分提高80%，超过o1正式版。

关键观点3: 强化微调的应用

OpenAI已开启强化微调研究计划，并在生物化学、安全、法律和医疗保健领域取得成功。开发者可以申请强化微调API的alpha版本访问权限进行测试。

关键观点4: 网友反应

网友对OpenAI的新功能充满期待，对可能的Sora发布也有所猜测，认为强化微调可能在科学领域带来突破性的成果。

正文

转自 | 量子位
梦晨西风发自凹非寺

OpenAI“双12”直播第二天，依旧简短精悍，主题：

新功能 强化微调 （Reinforcement Fine-Tuning），使用极少训练数据即在特定领域轻松地创建专家模型。

少到什么程度呢？ 最低几十个例子 就可以。

CEO奥特曼 表示“效果一级棒，是 我2024年最大的惊喜 ，期待看到人们构建什么！”

那么效果有多棒呢？

微调后的o1-mini模型得分提高80%，直接反超o1正式版。

目前OpenAI已开启强化微调研究计划，开发者可以申请强化微调API的alpha版本访问权限。

进行测试时，可使用几十到几千个高质量数据，模型能够通过强化学习自行探索和学习如何推理复杂任务。

蹲守直播间的网友们听得也是one愣one愣的，完全没有料想到今晚“圣诞盲盒“是酱婶儿的。

OpenAI员工Jerry Tworek则表示“ AGI不是授人以鱼，而是授人以渔 ”。

OpenAI微调首次支持强化学习

直播嘉宾除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究员，还有伯克利实验室计算生物学家Justin Reese，他们共同演示了强化微调功能的全过程。

具体来说，这是一个生物医学任务，AI需要根据病例描述的症状，找出相关基因。

训练数据长这样：

病人信息：51岁女性，疾病发病时间未具体说明。

症状：眼距过宽、睑裂狭小、小颌畸形、软腭咽闭合不全、甲状旁腺功能减退、全身发育迟缓和感觉神经性听力障碍

未表现出以下症状：腭裂、法洛四联症、肺动脉瓣闭锁、心房隔缺损、主动脉肺动脉侧支血管

请列出所有可能导致这些症状的基因，从可能性最大到可能性最小，并解释为什么你认为这些特定的基因可能是原因。