专栏名称: 百度智能云

聚焦人工智能（AI）、大数据（Big Data）、云计算（Cloud），以“ABC”三位一体战略，帮助企业客户实现数字化、智能化转型。百度云，智能，计算无限可能！

国内首个！千帆ModelBuilder支持RFT，打破传统SFT训练效果天花板！

百度智能云 · 公众号 · 科技公司 · 2025-03-14 21:04

正文

请到「今天看啥」查看全文

OpenAI发布会引爆RFT技术

千帆ModelBuilder率先落地！

在OpenAI连续12天的技术发布会上，一项名为RFT（Reinforcement-based Fine-Tuning，基于强化学习的微调）的新型训练方法引发全球关注。该方法通过结合强化学习与监督微调，仅需少量标注数据即可显著提升模型在特定场景下的性能。2月28日， 百度智能云千帆ModelBuilder成为了国内首个全面支持RFT训练方法的大模型开发平台 ，为企业开发者提供更高效、低成本的大模型开发模式，进一步降低生成式AI应用落地的门槛。

什么是RFT：大模型高效训练的新范式

RFT融合了强化学习（RL）和微调（Fine-tuning）技术，突破了传统训练依赖大量人工标注偏好数据的局限，借助Grader比较模型Response和Reference进行打分（0-1），自动分配奖励信号，驱动模型优化。

这一训练方式的优势在于，AI可以自己思考，强化导致正确答案的思维路径、抑制导致错误的思维路径，可以在用户的少量专业数据中完成推理，从而完成强化学习，迅速达到细分领域的专家水平。

RFT融合 强化学习（RL）与监督微调（SFT） ，通过以下机制突破传统训练瓶颈：

奖励信号自动化引入Grader模块 （基于规则或参考答案的评分器），对比模型输出与参考答案（Reference），自动生成0-1分值的量化奖励信号，替代人工偏好标注。
策略优化智能化基于PPO算法 构建强化学习框架，驱动模型通过自主探索优化输出策略，避免传统SFT的局部最优局限。

千帆ModelBuilder RFT训练全流程解析：

RFT如何让模型实现“思维跃迁”

在千帆ModelBuilder的实测中，RFT展现出"超强增效"特性：

数据效率 ：复杂场景下，仅需4500条训练数据即可完成训练，并保证模型效果。
泛化能力 ：在3-8人复杂度递增的"好人/坏人"推理场景中，平均准确率相比base模型提升29%。
训练天花板 ：在复杂问题场景下，RFT的训练能力天花板更高。

那上面的3点内容我们是如何得出的结论呢，我们以平台上真实测评的逻辑推理场景-“谁是好人”来进行揭秘！

首先来看看案例背景：

什么是逻辑推理场景——“谁是好人”？

在虚构的“坏人与好人”推理问题中，模型需分析角色陈述的真伪，推断出“好人”与“坏人”的身份。此类问题考验模型的 逻辑一致性分析与数学推理能力 。我们用一个具体query来展示下该场景：

可以看到，在上述的case模型的输出中，思考过程已经逐渐混乱，并且题目本身需要区分3个人的身份，在最终答案中模型只给出2个人的身份结论，并未有效的推理出该问题。那我们对模型进一步进行RFT，希望能解决模型输出准确性问题。

千帆ModelBuilder上的RFT训练三步曲

Step 1：创建RFT训练任务

在千帆ModelBuilder上，选择「模型精调」→「偏好对齐」→「RFT」，并选择base模型DeepSeek-R1-Distill-Qwen-7B，同时配置奖励规则（平台预置四种规则，奖励规则中定义了如何评估模型输出效果的规则）。

选择训练方法

奖励规则配置

Step 2：准备训练数据

采用开源数据集K-and-K/knights-and-knaves（约4,500条数据）；平台数据配置中，数据格式需包含Prompt（问题）与Response（参考答案）。

数据配置要求：Prompt+Response格式

Step 3：模型部署与效果快速评估

配置成功后，在平台即可一键开启模型训练，训练完成后一键部署至千帆ModelBuilder，同时平台支持创建自动评估任务，通过ERNIE-4.0-Turbo 作为裁判员模型并自定义评估指标，快速得到模型评估结果。

效果验证——RFT“超强增效”：

训练后的模型回答准确率大幅提升，

超越OpenAI o1模型！

整个训练过程，我们基于百度智能云千帆 ModelBuilder平台，利用base模型 DeepSeek-R1-Distill-Qwen-7B 使用约 4500条少量数据，完成RFT训练；根据回答准确率以及case示例分析，我们得出2个关键结论。

关键结论1——准确率跃升，训练天花板更高： 在3-8人复杂度递增的场景中，RFT后的DeepSeek-R1-Distill-Qwen-7B平均准确率提升29%，超越了OpenAI o1；同时我们也对比了SFT-全量更新后的模型回答准确率，发现在逻辑推理场景下，RFT的效果提升更显著，训练天花板更高。

RFT后的模型与base模型、OpenAI o1回答准确率对比

关键结论2——泛化能力增强： RFT前Base模型的输出答案以及思考过程均有明显错误，并且当题目难度越高的时候甚至模型回答语言已经错乱；而RFT后，模型输出的答案准确，思考过程也更加清晰。

简单问题：

一个非常特殊的岛屿上只有好人和坏人居住。好人总是说真话，坏人总是说谎。你遇到三个居民：杰克、塞巴斯蒂安和詹姆斯。据杰克说：“詹姆斯是好人且杰克是好人。”塞巴斯蒂安评论道：“杰克是坏人且詹姆斯是坏人。”詹姆斯说：“塞巴斯蒂安是好人，仅当他是坏人时成立。”那么谁是好人，谁是坏人？

复杂问题：

一个非常特殊的岛屿上只居住着好人和坏人。好人总是讲真话，坏人总是说谎。你遇到了7个居民：Isabella、Mason、Ella、Harper、Daniel、David 和 Michael。根据Isabella的说法，“David是一个好人”。Mason提到，“Daniel不是一个好人”。Ella说，“Mason不是一个坏人”。Harper的话是：“Daniel是一个好人，David是一个好人”。Daniel说，David是一个好人或者David是一个坏人。David说，“如果Ella是一个好人，那么Daniel是一个坏人。” Michael说，“如果Harper是一个好人，那么Daniel是一个坏人”。那么，谁是好人，谁是坏人？

万卡集群的“超快自愈术”：看百度百舸如何攻克AI训练稳定性“生死劫”

点击阅读原文，立即合作咨询