Maxime Labonne与Huggingface和Ben Burtenshaw合作,教大家如何使用GRPO微调大型语言模型(LLMs)。
在这份notebook中,使用过滤后的smoltldr数据集对一个小型的SmolLM-135M模型进行了微调。凭借奖励函数,鼓励模型输出大约50个字符的简短生成内容("TL;DR")。有趣的是,这个135M的模型仅使用2000个样本就能学会这种行为!
最终结果的质量各不相同,但调整超参数并获得这些小型模型如何与GRPO配合的直觉,是一个令人着迷的练习。
课程链接:huggingface.co/reasoning-course
Notebook:colab.research.google.com/grpo_finetune.ipynb
图1-决策树:以在GRPO、DPO和PPO之间进行选择,以微调中等大小的指令模型(这个要收藏)
#ai创造营# #程序员# #deepseek#
在这份notebook中,使用过滤后的smoltldr数据集对一个小型的SmolLM-135M模型进行了微调。凭借奖励函数,鼓励模型输出大约50个字符的简短生成内容("TL;DR")。有趣的是,这个135M的模型仅使用2000个样本就能学会这种行为!
最终结果的质量各不相同,但调整超参数并获得这些小型模型如何与GRPO配合的直觉,是一个令人着迷的练习。
课程链接:huggingface.co/reasoning-course
Notebook:colab.research.google.com/grpo_finetune.ipynb
图1-决策树:以在GRPO、DPO和PPO之间进行选择,以微调中等大小的指令模型(这个要收藏)
#ai创造营# #程序员# #deepseek#