OpenAI 推出了
强化微调
(Reinforcement Fine-Tuning, RFT),一种新型模型定制技术,能够帮助企业构建高专业性的 AI 模型,应对复杂、领域专属的任务。
借助 RFT,用户可以将 AI 训练成具备法律、医疗、金融和工程等领域专家推理能力的助手,并使用 OpenAI 自家前沿模型所采用的技术加以实现。
亮点速览:
-
RFT 通过强化学习,仅需少量示例(约十几个)就能训练出专家级模型,优化推理能力。
-
OpenAI 的 Alpha 项目已开启,计划在 2025 年初正式面向公众推出。
-
法律、医疗和工程领域的测试表明 RFT 成功赋能 AI 执行复杂且专业的任务。
-
不同于传统监督微调(SFT),RFT 专注于教 AI 学会推理与解决问题,而非简单地模仿输入数据。
在直播中,伯克利实验室的计算生物学家 Justin Reese 演示了 RFT 如何提升罕见疾病基因诊断的准确性。他表示:“识别罕见疾病是一项挑战,需要结合医学专业知识与系统化的数据推理能力。”
技术价值:
强化微调让 AI 定制进入了全新阶段,企业可以为特定行业需求打造更精准的 AI 模型。
与传统微调方式不同,RFT 突出提升模型推理能力,而非简单复制训练数据中的模式。
这一技术有望改变企业在法律、科研、金融等需要高度专业性的领域内对 AI 的应用方式。
如何实现:
RFT 借助强化学习,通过“评估器(graders)”对模型输出进行评分,指导模型优化推理能力。
这一过程能够帮助模型掌握复杂问题的处理方法,应对需要高精准度的任务场景。
演示表明,微调版 GPT-4 mini 在某些任务中的表现已超越基础 GPT-4。例如,微调后的模型在首次尝试中正确识别基因的准确率达 31%,显著高于基础模型的 25%。
潜在受益者:
RFT 的技术特性使其非常适合精准性要求极高的行业,如法律分析、科学研究和金融预测。
OpenAI 与 Thomson Reuters 的合作已开发出法律领域 AI 工具,展现了其在专业领域中变革工作流程的潜力。
未来展望:
OpenAI 启动的 Alpha 计划现正招募企业、大学和研究机构参与,申请者将率先体验 RFT API,并为工具的进一步改进提供建议。这一技术预计在 2025 年初正式推出。
强化微调有望将定制化 AI 的门槛大幅降低,帮助更多组织打造面向特定挑战的解决方案。凭借少量数据即可实现专业化的能力,RFT 有可能成为未来行业创新的重要推动力。
© AI范儿
要进“
交流群
”,请关注公众号获取进群方式
投稿、需求合作或报道请添加公众号获取联系方式