专栏名称: 百度智能云
聚焦人工智能(AI)、大数据(Big Data)、云计算(Cloud),以“ABC”三位一体战略,帮助企业客户实现数字化、智能化转型。百度云,智能,计算无限可能!
目录
相关文章推荐
51好读  ›  专栏  ›  百度智能云

国内首个!千帆ModelBuilder支持RFT,打破传统SFT训练效果天花板!

百度智能云  · 公众号  · 科技公司  · 2025-03-14 21:04

正文

请到「今天看啥」查看全文




OpenAI发布会引爆RFT技术

千帆ModelBuilder率先落地!

在OpenAI连续12天的技术发布会上,一项名为RFT(Reinforcement-based Fine-Tuning,基于强化学习的微调)的新型训练方法引发全球关注。该方法通过结合强化学习与监督微调,仅需少量标注数据即可显著提升模型在特定场景下的性能。2月28日, 百度智能云千帆ModelBuilder成为了国内首个全面支持RFT训练方法的大模型开发平台 ,为企业开发者提供更高效、低成本的大模型开发模式,进一步降低生成式AI应用落地的门槛。


什么是RFT:大模型高效训练的新范式

RFT融合了强化学习(RL)和微调(Fine-tuning)技术,突破了传统训练依赖大量人工标注偏好数据的局限,借助Grader比较模型Response和Reference进行打分(0-1),自动分配奖励信号,驱动模型优化。


这一训练方式的优势在于,AI可以自己思考,强化导致正确答案的思维路径、抑制导致错误的思维路径,可以在用户的少量专业数据中完成推理,从而完成强化学习,迅速达到细分领域的专家水平。



RFT融合 强化学习(RL)与监督微调(SFT) ,通过以下机制突破传统训练瓶颈:


  1. 奖励信号自动化引入Grader模块 (基于规则或参考答案的评分器),对比模型输出与参考答案(Reference),自动生成0-1分值的量化奖励信号,替代人工偏好标注。


  2. 策略优化智能化基于PPO算法 构建强化学习框架,驱动模型通过自主探索优化输出策略,避免传统SFT的局部最优局限。


千帆ModelBuilder RFT训练全流程解析:

RFT如何让模型实现“思维跃迁”

在千帆ModelBuilder的实测中,RFT展现出"超强增效"特性:


  • 数据效率 :复杂场景下,仅需4500条训练数据即可完成训练,并保证模型效果。


  • 泛化能力 :在3-8人复杂度递增的"好人/坏人"推理场景中,平均准确率相比base模型提升29%。


  • 训练天花板 :在复杂问题场景下,RFT的训练能力天花板更高。


那上面的3点内容我们是如何得出的结论呢,我们以平台上真实测评的逻辑推理场景-“谁是好人”来进行揭秘!


首先来看看案例背景:

什么是逻辑推理场景——“谁是好人”?

在虚构的“坏人与好人”推理问题中,模型需分析角色陈述的真伪,推断出“好人”与“坏人”的身份。此类问题考验模型的 逻辑一致性分析与数学推理能力 。我们用一个具体query来展示下该场景:



可以看到,在上述的case模型的输出中,思考过程已经逐渐混乱,并且题目本身需要区分3个人的身份,在最终答案中模型只给出2个人的身份结论,并未有效的推理出该问题。那我们对模型进一步进行RFT,希望能解决模型输出准确性问题。


千帆ModelBuilder上的RFT训练三步曲

Step 1:创建RFT训练任务


在千帆ModelBuilder上,选择「模型精调」→「偏好对齐」→「RFT」,并选择base模型DeepSeek-R1-Distill-Qwen-7B,同时配置奖励规则(平台预置四种规则,奖励规则中定义了如何评估模型输出效果的规则)。


选择训练方法


奖励规则配置


Step 2:准备训练数据


采用开源数据集K-and-K/knights-and-knaves(约4,500条数据);平台数据配置中,数据格式需包含Prompt(问题)与Response(参考答案)。


数据配置要求:Prompt+Response格式


Step 3:模型部署与效果快速评估


配置成功后,在平台即可一键开启模型训练,训练完成后一键部署至千帆ModelBuilder,同时平台支持创建自动评估任务,通过ERNIE-4.0-Turbo 作为裁判员模型并自定义评估指标,快速得到模型评估结果。


效果验证——RFT“超强增效”:

训练后的模型回答准确率大幅提升,

超越OpenAI o1模型!

整个训练过程,我们基于百度智能云千帆 ModelBuilder平台,利用base模型 DeepSeek-R1-Distill-Qwen-7B 使用约 4500条少量数据,完成RFT训练; 根据回答准确率以及case示例分析,我们得出2个关键结论。


关键结论1——准确率跃升,训练天花板更高: 在3-8人复杂度递增的场景中,RFT后的DeepSeek-R1-Distill-Qwen-7B平均准确率提升29%,超越了OpenAI o1;同时我们也对比了SFT-全量更新后的模型回答准确率,发现在逻辑 推理场景下,RFT的效果提升更显著,训练天花板更高。


RFT后的模型与base模型、OpenAI o1回答准确率对比


关键结论2——泛化能力增强: RFT前Base模型的输出答案以及思考过程均有明显错误,并且当题目难度越高的时候甚至模型回答语言已经错乱;而RFT后,模型输出的答案准确,思考过程也更加清晰。


简单问题:

一个非常特殊的岛屿上只有好人和坏人居住。好人总是说真话,坏人总是说谎。你遇到三个居民:杰克、塞巴斯蒂安和詹姆斯。据杰克说:“詹姆斯是好人且杰克是好人。”塞巴斯蒂安评论道:“杰克是坏人且詹姆斯是坏人。”詹姆斯说:“塞巴斯蒂安是好人,仅当他是坏人时成立。”那么谁是好人,谁是坏人?



复杂问题:

一个非常特殊的岛屿上只居住着好人和坏人。好人总是讲真话,坏人总是说谎。你遇到了7个居民:Isabella、Mason、Ella、Harper、Daniel、David 和 Michael。根据Isabella的说法,“David是一个好人”。Mason提到,“Daniel不是一个好人”。Ella说,“Mason不是一个坏人”。Harper的话是:“Daniel是一个好人,David是一个好人”。Daniel说,David是一个好人或者David是一个坏人。David说,“如果Ella是一个好人,那么Daniel是一个坏人。” Michael说,“如果Harper是一个好人,那么Daniel是一个坏人”。那么,谁是好人,谁是坏人?




万卡集群的“超快自愈术”:看百度百舸如何攻克AI训练稳定性“生死劫”

点击 阅读原文,立即合作咨询







请到「今天看啥」查看全文