OpenAI在“双12”直播中展示了新功能强化微调(Reinforcement Fine-Tuning),使用极少训练数据即可在特定领域创建专家模型。CEO奥特曼对此表示惊喜,并期待人们的应用。强化微调步骤简单,并在生物化学、安全、法律和医疗保健领域取得成功。该技术在特定任务上可能带来突破,但不适用于所有任务。网友对OpenAI的新功能充满期待,对可能的Sora发布也有所猜测。
OpenAI已开启强化微调研究计划,并在生物化学、安全、法律和医疗保健领域取得成功。开发者可以申请强化微调API的alpha版本访问权限进行测试。
网友对OpenAI的新功能充满期待,对可能的Sora发布也有所猜测,认为强化微调可能在科学领域带来突破性的成果。
转自 | 量子位
梦晨 西风 发自 凹非寺
OpenAI“双12”直播第二天,依旧简短精悍,主题:
新功能
强化微调
(Reinforcement Fine-Tuning),使用极少训练数据即在特定领域轻松地创建专家模型。
少到什么程度呢?
最低几十个例子
就可以。
CEO奥特曼
表示“效果一级棒,是
我2024年最大的惊喜
,期待看到人们构建什么!”
那么效果有多棒呢?
微调后的o1-mini模型得分提高80%,直接反超o1正式版。
目前OpenAI已开启强化微调研究计划,开发者可以申请强化微调API的alpha版本访问权限。
进行测试时,可使用几十到几千个高质量数据,模型能够通过强化学习自行探索和学习如何推理复杂任务。
蹲守直播间的网友们听得也是one愣one愣的,完全没有料想到今晚“圣诞盲盒“是酱婶儿的。
OpenAI员工Jerry Tworek则表示“
AGI不是授人以鱼,而是授人以渔
”。
直播嘉宾除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究员,还有伯克利实验室计算生物学家Justin Reese,他们共同演示了强化微调功能的全过程。
具体来说,这是一个生物医学任务,AI需要根据病例描述的症状,找出相关基因。
训练数据长这样:
症状:眼距过宽、睑裂狭小、小颌畸形、软腭咽闭合不全、甲状旁腺功能减退、全身发育迟缓和感觉神经性听力障碍
未表现出以下症状:腭裂、法洛四联症、肺动脉瓣闭锁、心房隔缺损、主动脉肺动脉侧支血管
请列出所有可能导致这些症状的基因,从可能性最大到可能性最小,并解释为什么你认为这些特定的基因可能是原因。
评分模型(Grader)会对模型的答案进行评分,OpenAI会提供不同的评分模型,并支持自定义。
强化微调步骤很简单,在网页界面可选择训练集和验证集。
再根据情况配置超参数即可。
微调过程中,可以观察模型性能指标的变化趋势。
测试完成后,也可以查看模型对每条验证数据的输出,这里TSC2基因是正确答案,模型把它排在第一位,所以通过。
目前OpenAI内部测试中,强化微调在生物化学、安全、法律和医疗保健领域取得成功。
强化微调将在2025年初作为产品发布,对企业、大学和研究院已开放申请测试通道。
看完这场直播后,有人总结:强化微调可能并不适合所有任务,但会在科学领域带来突破性的成果。