专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

目录

相关文章推荐

人工智能学家 · 2024诺奖颁奖现场，AI之父Hinton演 ... · 昨天

爱可可-爱生活 · 【Sequin：Postgres数据库变更数 ... · 4 天前

新智元 · OpenAI直播第二弹！奥特曼2024年最大 ... · 4 天前

爱可可-爱生活 · [CL]《Marco-LLM: ... · 5 天前

黄建同学 · 看到 idoubi 的这个 mcp ... · 5 天前

51好读 › 专栏 › 量子位

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

量子位 · 公众号 · AI · 2024-12-07 03:35

正文

梦晨西风发自凹非寺
量子位 | 公众号 QbitAI

OpenAI“双12”直播第二天，依旧简短精悍，主题：

新功能强化微调（Reinforcement Fine-Tuning），使用极少训练数据即在特定领域轻松地创建专家模型。

少到什么程度呢？最低几十个例子就可以。

CEO奥特曼表示“效果一级棒，是我2024年最大的惊喜，期待看到人们构建什么！”

那么效果有多棒呢？

微调后的o1-mini模型得分提高80%，直接反超o1正式版。

目前OpenAI已开启强化微调研究计划，开发者可以申请强化微调API的alpha版本访问权限。

进行测试时，可使用几十到几千个高质量数据，模型能够通过强化学习自行探索和学习如何推理复杂任务。

蹲守直播间的网友们听得也是one愣one愣的，完全没有料想到今晚“圣诞盲盒“是酱婶儿的。

OpenAI员工Jerry Tworek则表示“AGI不是授人以鱼，而是授人以渔”。

OpenAI微调首次支持强化学习

直播嘉宾除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究员，还有伯克利实验室计算生物学家Justin Reese，他们共同演示了强化微调功能的全过程。

具体来说，这是一个生物医学任务，AI需要根据病例描述的症状，找出相关基因。

训练数据长这样：

病人信息：51岁女性，疾病发病时间未具体说明。
症状：眼距过宽、睑裂狭小、小颌畸形、软腭咽闭合不全、甲状旁腺功能减退、全身发育迟缓和感觉神经性听力障碍
未表现出以下症状：腭裂、法洛四联症、肺动脉瓣闭锁、心房隔缺损、主动脉肺动脉侧支血管
请列出所有可能导致这些症状的基因，从可能性最大到可能性最小，并解释为什么你认为这些特定的基因可能是原因。

评分模型（Grader）会对模型的答案进行评分，OpenAI会提供不同的评分模型，并支持自定义。

强化微调步骤很简单，在网页界面可选择训练集和验证集。

再根据情况配置超参数即可。

微调过程中，可以观察模型性能指标的变化趋势。

测试完成后，也可以查看模型对每条验证数据的输出，这里TSC2基因是正确答案，模型把它排在第一位，所以通过。

目前OpenAI内部测试中，强化微调在生物化学、安全、法律和医疗保健领域取得成功。

强化微调将在2025年初作为产品发布，对企业、大学和研究院已开放申请测试通道。

看完这场直播后，有人总结：强化微调可能并不适合所有任务，但会在科学领域带来突破性的成果。

奥特曼默认会发Sora

OpenAI直播第二天，对比第一天o1正式发布、立等可用，似乎平淡了一些。

有不满足的网友表示：where is GPT-4.5？

评论区猜测可能大货会放在最后一天。

他们是真的懂如何吊所有人的胃口

不过，有网友钓鱼钓出了奥特曼，且奥特曼没有否认会发布Sora的消息。

参考链接：
[1]https://openai.com/form/rft-research-program/

— 完 —

MEET2025大会在即

倒计时一周 ⏰ 欢迎报名

🌟 一年一度的科技顶流盛会就要来了！

☄️ 两场GenAI Talk，一场具身智能圆桌，直指时下热门议题！工业界学术界顶流大咖齐聚，还有两份关键参考「年度AI趋势报告」、「2024人工智能年度评选」榜单即将发布！了解详情

🚀 点击报名参会，12月11日，期待与您一起预见智能科技新未来！

左右滑动查看最新嘉宾阵容

点这里👇关注我，记得标星哦～

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~

推荐文章

人工智能学家 · 2024诺奖颁奖现场，AI之父Hinton演讲：当AI已经开始理解人类的喜好和情绪（附视频）

昨天

爱可可-爱生活 · 【Sequin：Postgres数据库变更数据捕捉工具，能够将数-20241207161253

4 天前

新智元 · OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

4 天前

爱可可-爱生活 · [CL]《Marco-LLM: Bridging Languag-20241207070126

5 天前

黄建同学 · 看到 idoubi 的这个 mcp 项目，可能很有用↓#ai##-20241206214923

5 天前

普象工业设计小站 · 【日常插画】一个不用穿bra的地方，才能被叫做家

8 年前

东莞阳光网 · 《天梯》原唱香港人气组合CALLStar空降厚海！1000张门票全城大派送！

7 年前

笔吧评测室 · 聊一款5000价位被埋没的好产品

7 年前

树上喝可乐 · End of An Era

7 年前

动脉网 · 谁说互联网医疗不赚钱？这家公司启动营收仅三月就实现了盈利

7 年前

Sov5搜索 · 小百科 · 移动版

51好读 - 好文章就要读起来!