Unsloth AI 与 Hugging Face 合作推出的微调教程,教我们如何使用 GRPO 微调 LLM!
内容:
- 奖励函数 + 创建奖励函数
- GRPO Math + Colab 中的免费推理训练
- 将 RL 应用于现实世界的用例
课程:huggingface.co/reasoning-course
教程:docs.unsloth.ai/basics/reasoning-grpo-and-rl/tutorial-train-your-own-reasoning-model-with-grpo
#ai创造营# #程序员# #科技#
内容:
- 奖励函数 + 创建奖励函数
- GRPO Math + Colab 中的免费推理训练
- 将 RL 应用于现实世界的用例
课程:huggingface.co/reasoning-course
教程:docs.unsloth.ai/basics/reasoning-grpo-and-rl/tutorial-train-your-own-reasoning-model-with-grpo
#ai创造营# #程序员# #科技#