专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  晚安~ #晚安# -20250309221258 ·  5 小时前  
黄建同学  ·  这个Vegs ... ·  5 小时前  
爱可可-爱生活  ·  【[42星]TokenSwift:让超长文本 ... ·  2 天前  
爱可可-爱生活  ·  【[97星]EXO Private ... ·  2 天前  
黄建同学  ·  腾讯HunyuanVideo-I2V的Dem ... ·  2 天前  
51好读  ›  专栏  ›  新智元

让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

新智元  · 公众号  · AI  · 2025-03-09 09:12

主要观点总结

本文介绍了CMU等机构华人团队提出的「批判性微调」(CFT)方法,该方法旨在改进大模型在面对复杂推理任务时的性能。CFT方法通过在少量样本上进行训练,让模型学会批判,而不是简单地模仿。实验表明,CFT方法在推理任务上的表现优于使用超过200万个样本的强化学习方法(SFT)。

关键观点总结

关键观点1: CFT方法简介及目标

CFT是一种改进大模型性能的方法,旨在让模型更有效地模仿数据集。其目标是让模型学会批判,而不是简单地模仿。这种方法源于人类的学习过程,并受到启发。

关键观点2: CFT与SFT的对比

传统语言模型训练的主要方式是模仿(SFT)。然而,随着数据集规模和质量的提升,SFT面临着边际收益递减的问题。相比之下,CFT通过让模型学会批判,提升了模型对问题的深入理解,并在推理任务上表现出更强的适应性和灵活性。

关键观点3: CFT方法的具体实施

CFT数据集通过构建带有批评意见的问答对作为训练数据集。这些问题主要聚焦在数学领域,也包括物理、化学、商业等主题。训练目标是将问题、错误响应和评论结合起来,优化模型参数以生成更准确的回应。

关键观点4: CFT方法的优势

CFT方法具有多个优势,包括提高模型的推理能力、在复杂任务中表现出更强的适应性和灵活性、训练效率高以及计算成本低。此外,CFT训练的数据集构建和训练过程相对简单,也使其成为实际应用的可行选择。

关键观点5: CFT的局限性及未来研究方向

虽然CFT方法在许多方面表现出优势,但也存在一些局限性,如批评数据的质量问题、模型的自我批评能力尚未开发以及数据集代表性不足等。未来的研究可能集中在提升批判数据质量和探索模型自我批判机制方面,同时将CFT与其他训练范式相结合,并研究其理论基础。


正文



新智元报道

编辑:peter东 乔杨
【新智元导读】 在面对复杂的推理任务时,SFT往往让大模型显得力不从心。最近,CMU等机构的华人团队提出了「批判性微调」(CFT)方法,仅在 50K 样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

模仿是传统语言模型训练的主要方式。LLM在解决现实世界问题方面之所以表现出前所未有的性能,其中一项核心技术是监督微调(SFT)。

在SFT的过程中,模型被要求模仿人类标注或合成的高质量回复,以增强通用指令遵循能力。这类SFT数据集通常使用Self-Instruct和Evol-Instruct等方法进行构建。

然而,这种方法存在明显的局限性。随着数据集规模和质量的提升,SFT面临着边际收益递减的问题,尤其是在训练本身效果就不错的基础模型时,使用SFT甚至可能会导致性能下降。

最近,CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文,针对SFT做出了更进一步的改进,提出批判式监督微调方法(CFT,Critique Fine-Tuning),旨在让模型更有效地模仿模仿数据集。

论文链接:https://arxiv.org/pdf/2501.17703

批判式监督微调:让SFT重新伟大

CFT将重点从简单模仿转向基于批判的学习,核心思想是让模型学会批判,而不是简单地模仿,其灵感来源于人类的学习过程。

学霸们在学习过程中,不仅仅是复制提供的答案,而是分析、批判和改进它们。同样,CFT数据集中为错误响应提供相应的批评供模型学习,让LLM能够识别响应中存在的缺陷,进而提出改进建议并验证正确性。

这种方法不仅能够提升推理能力,还能使模型在面对复杂任务时表现出更强的适应性和灵活性。

比如,针对这个问题:在直角三角形的直角边长分别为3个单位和4个单位的情况下,构造一个正方形。求五边形$ABCDE$的面积(单位:平方单位)。

在SFT模式下,模型会一步步的进行运算,先运用勾股定理计算斜边长度为5,再计算正方形的面积为25,以及三角形面积6,之后模型给出回答25-6。

而在CFT模式下,会由模型对上述回答给出批评,指出错误点是应该加上而非减去三角形的面积,并给出正确答案31。

下图展示了典型的SFT和CFT数据样例。

SFT让大模型直接模仿答案,CFT让大模型模仿对错误回答的批评

CFT的高训练效率

那么,如何获得CFT训练所需的数据呢?

论文基于WebInstruct,构建了一个50K个带批评意见的问答对作为训练数据集,其中的批评由GPT-4o等高级模型生成,上述的题目是其中一个例子。这些问题主要聚焦数学领域(65%),也包括物理、化学、商业等主题。

CFT数据集与其他SFT数据集对比

之后在CFT数据集上训练7B大小的、没有经过指令微调的LLM,如DeepSeekMath-base、Qwen2.5和Qwen2.5-Math。

CFT方法的训练目标相当直接:将问题x和错误响应y拼接为作为输入,然后优化模型参数以生成评论c ,相当于训练模型学会批判性思维。

实验中,作者考察了LLM在经过指令微调与批判性微调后,在数学相关基准上的性能提升。结果显示:CFT训练的模型可以持续优于SFT训练的最佳模型。

相比SFT,CFT的准确率平均高出4-10个百分点。不仅如此,训练效率也更高,能在更少的训练数据上实现更快的收敛,因此有望成为开发数学推理模型的一种更有效的方法。

Qwen2.5-Math-7B在MATH和Minerva-Math上不同方法的训练动态比较,包括CFT与两种SFT变体,横轴代表训练步数,纵轴显示准确率

在同样是50k个样本上时,不同的基座模型使用CFT和SFT训练后的性能提升

如果只聚焦于Qwen2.5-Math-7B这一个模型就可以看到,在各种数据集和任务上,CFT的训练效果都能全方位超越SFT。

论文将训练后的Qwen2.5-Math-7B-CFT与知名的Llama、GPT系列,以及尤其擅长推理的Deepseek、Mathstral、Numina等系列模型进行了对比,结果如下表所示。

Qwen2.5-Math-7B-CFT的平均性能(48.1%)甚至优于参数量10倍的Llama-3.1-70B-Instruct(40.4%)和 NuminaMath-72B-CoT(39.1%),与Qwen2.5-Math-72B-Instruct(56.4%)相近。

此外,CFT训练的模型在性能上也能够与使用140倍计算资源训练的SimpleRL模型(Deepseek R1的公开复制版)相媲美,使用的GPU时长降低到144分之一,相当于大幅削减了计算成本。







请到「今天看啥」查看全文