OpenAI发布会引爆RFT技术
千帆ModelBuilder率先落地!
在OpenAI连续12天的技术发布会上,一项名为RFT(Reinforcement-based Fine-Tuning,基于强化学习的微调)的新型训练方法引发全球关注。该方法通过结合强化学习与监督微调,仅需少量标注数据即可显著提升模型在特定场景下的性能。2月28日,
百度智能云千帆ModelBuilder成为了国内首个全面支持RFT训练方法的大模型开发平台
,为企业开发者提供更高效、低成本的大模型开发模式,进一步降低生成式AI应用落地的门槛。
RFT融合了强化学习(RL)和微调(Fine-tuning)技术,突破了传统训练依赖大量人工标注偏好数据的局限,借助Grader比较模型Response和Reference进行打分(0-1),自动分配奖励信号,驱动模型优化。
这一训练方式的优势在于,AI可以自己思考,强化导致正确答案的思维路径、抑制导致错误的思维路径,可以在用户的少量专业数据中完成推理,从而完成强化学习,迅速达到细分领域的专家水平。
RFT融合
强化学习(RL)与监督微调(SFT)
,通过以下机制突破传统训练瓶颈:
-
奖励信号自动化引入Grader模块
(基于规则或参考答案的评分器),对比模型输出与参考答案(Reference),自动生成0-1分值的量化奖励信号,替代人工偏好标注。
-
策略优化智能化基于PPO算法
构建强化学习框架,驱动模型通过自主探索优化输出策略,避免传统SFT的局部最优局限。
千帆ModelBuilder RFT训练全流程解析:
RFT如何让模型实现“思维跃迁”
在千帆ModelBuilder的实测中,RFT展现出"超强增效"特性:
-
数据效率
:复杂场景下,仅需4500条训练数据即可完成训练,并保证模型效果。
-
泛化能力
:在3-8人复杂度递增的"好人/坏人"推理场景中,平均准确率相比base模型提升29%。
-
训练天花板
:在复杂问题场景下,RFT的训练能力天花板更高。
那上面的3点内容我们是如何得出的结论呢,我们以平台上真实测评的逻辑推理场景-“谁是好人”来进行揭秘!
首先来看看案例背景:
什么是逻辑推理场景——“谁是好人”?
在虚构的“坏人与好人”推理问题中,模型需分析角色陈述的真伪,推断出“好人”与“坏人”的身份。此类问题考验模型的
逻辑一致性分析与数学推理能力
。我们用一个具体query来展示下该场景:
可以看到,在上述的case模型的输出中,思考过程已经逐渐混乱,并且题目本身需要区分3个人的身份,在最终答案中模型只给出2个人的身份结论,并未有效的推理出该问题。那我们对模型进一步进行RFT,希望能解决模型输出准确性问题。
Step 1:创建RFT训练任务
在千帆ModelBuilder上,选择「模型精调」→「偏好对齐」→「RFT」,并选择base模型DeepSeek-R1-Distill-Qwen-7B,同时配置奖励规则(平台预置四种规则,奖励规则中定义了如何评估模型输出效果的规则)。
选择训练方法
Step 2:准备训练数据
采用开源数据集K-and-K/knights-and-knaves(约4,500条数据);平台数据配置中,数据格式需包含Prompt(问题)与Response(参考答案)。
Step 3:模型部署与效果快速评估
配置成功后,在平台即可一键开启模型训练,训练完成后一键部署至千帆ModelBuilder,同时平台支持创建自动评估任务,通过ERNIE-4.0-Turbo
作为裁判员模型并自定义评估指标,快速得到模型评估结果。
效果验证——RFT“超强增效”:
训练后的模型回答准确率大幅提升,
超越OpenAI o1模型!
整个训练过程,我们基于百度智能云千帆
ModelBuilder平台,利用base模型
DeepSeek-R1-Distill-Qwen-7B
使用约
4500条少量数据,完成RFT训练;
根据回答准确率以及case示例分析,我们得出2个关键结论。
关键结论1——准确率跃升,训练天花板更高:
在3-8人复杂度递增的场景中,RFT后的DeepSeek-R1-Distill-Qwen-7B平均准确率提升29%,超越了OpenAI o1;同时我们也对比了SFT-全量更新后的模型回答准确率,发现在逻辑
推理场景下,RFT的效果提升更显著,训练天花板更高。
RFT后的模型与base模型、OpenAI o1回答准确率对比
关键结论2——泛化能力增强:
RFT前Base模型的输出答案以及思考过程均有明显错误,并且当题目难度越高的时候甚至模型回答语言已经错乱;而RFT后,模型输出的答案准确,思考过程也更加清晰。
简单问题:
一个非常特殊的岛屿上只有好人和坏人居住。好人总是说真话,坏人总是说谎。你遇到三个居民:杰克、塞巴斯蒂安和詹姆斯。据杰克说:“詹姆斯是好人且杰克是好人。”塞巴斯蒂安评论道:“杰克是坏人且詹姆斯是坏人。”詹姆斯说:“塞巴斯蒂安是好人,仅当他是坏人时成立。”那么谁是好人,谁是坏人?
复杂问题:
一个非常特殊的岛屿上只居住着好人和坏人。好人总是讲真话,坏人总是说谎。你遇到了7个居民:Isabella、Mason、Ella、Harper、Daniel、David 和 Michael。根据Isabella的说法,“David是一个好人”。Mason提到,“Daniel不是一个好人”。Ella说,“Mason不是一个坏人”。Harper的话是:“Daniel是一个好人,David是一个好人”。Daniel说,David是一个好人或者David是一个坏人。David说,“如果Ella是一个好人,那么Daniel是一个坏人。” Michael说,“如果Harper是一个好人,那么Daniel是一个坏人”。那么,谁是好人,谁是坏人?
万卡集群的“超快自愈术”:看百度百舸如何攻克AI训练稳定性“生死劫”