专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
目录
相关文章推荐
大数据分析和人工智能  ·  一周3200,建议大家用DeepSeek变现 ... ·  2 天前  
老马那些事  ·  淘天集团5年发表国际顶会论文300篇以上 ... ·  昨天  
老马那些事  ·  淘天集团5年发表国际顶会论文300篇以上 ... ·  昨天  
上海科创汇  ·  申报|2025年度中国(上海)自由贸易试验区 ... ·  3 天前  
51好读  ›  专栏  ›  AIGC开放社区

比DeepSeek、o1高3倍!首创无服务器强化微调,只需十几个数据点,

AIGC开放社区  · 公众号  · 大数据 科技创业  · 2025-03-20 05:55

主要观点总结

Predibase发布了首个端到端强化微调平台(RFT),该平台不依赖大量标注数据,可通过奖励和自定义函数完成持续的强化学习。RFT支持无服务器和端到端训练方法,可完成复杂的大模型微调流程。Predibase展示了使用RFT对Qwen2.5-Coder-32B-instruct模型进行微调的结果,其性能比DeepSeek-R1和其他模型高出数倍。RFT具备多种技术优势,包括适应性与灵活性更强、具备持续改进能力、高效的训练和推理、支持复杂任务的课程学习等。Predibase的推理引擎支持RFT训练的模型的高性能部署。

关键观点总结

关键观点1: Predibase发布端到端强化微调平台(RFT)

RFT不依赖大量标注数据,通过奖励和自定义函数进行强化学习,支持无服务器和端到端训练方法。

关键观点2: RFT展示强大性能

使用RFT对Qwen2.5-Coder-32B-instruct模型进行微调,性能比DeepSeek-R1和其他模型高出数倍。

关键观点3: RFT技术优势

RFT具有适应性与灵活性更强、具备持续改进能力、高效的训练和推理、支持复杂任务的课程学习等技术优势。

关键观点4: Predibase推理引擎的支持

Predibase的推理引擎支持RFT训练的模型的高性能部署,提供行业级服务水平支持。


正文

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和 应用 落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

今天凌晨,知名大模型训练、开发平台Predibase发布了,首个端到端强化微调平台(RFT)。

与传统的监督式微调相比,RFT不依赖大量的标注数据,而是通过奖励和自定义函数来完成持续的强化学习,同时支持无服务器和端到端训练方法,从数据管理、训练模型到应用部署可以在同一个平台全部完成。

也就是说,你只需要一个浏览器,设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。

在线体验地址:https://predibase.com/reinforcement-fine-tuning-playground

为了展示RFT强大功能,Predibase根据阿里开源的Qwen2.5-Coder-32B-instruct,微调了一个专门用于将PyTorch代码翻译为Triton的模型。

这是一个大多数LLM都难以完成的任务,需要对两个框架都有深入的理解,并且需要复杂的推理能力来考虑计算效率,并且Qwen2.5-Coder-32B-instruct在微调之前准确率比较低。

通过RFT,Predibase在训练过程结合了冷启动监督式微调、强化学习和课程学习,并且只使用了十几个标记数据点。

在Kernelbench数据集上进行的基准测试显示,Qwen2.5-Coder-32B-instruct经过强化后, 其正确率比DeepSeek-R1和OpenAI的o1高出3倍,比Claude 3.7 Sonnet高出4倍以上 ,而模型的体量却比这三个小很多。

目前,Predibase已经开源了微调后的Qwen2.5-Coder-32B-instruct模型。

开源地址:https://huggingface.co/predibase/Predibase-T2T-32B-RFT

技术优势方面,RFT不依赖大量标注数据,而传统方法需要海量标注数据来指导模型学习,这些数据通常需要人工标注,成本高昂且耗时。RFT则通过奖励函数来引导模型学习,无需大量标注数据,奖励函数可根据任务的特定需求评估模型输出,来引导模型的优化目标。

RFT的适应性与灵活性更强。传统方法依赖于标注数据的质量和数量,若标注数据有限或不准确,模型性能会受限。而RFT允许用户根据具体任务需求自定义奖励函数,灵活定义模型优化目标。







请到「今天看啥」查看全文