专栏名称: 架构师

架构师云集，三高架构（高可用、高性能、高稳定）、大数据、机器学习、Java架构、系统架构、大规模分布式架构、人工智能等的架构讨论交流，以及结合互联网技术的架构调整，大规模架构实战分享。欢迎有想法、乐于分享的架构师交流学习。

RL居然让7B小模型学会玩数独？

架构师 · 公众号 · · 2025-03-17 22:28

正文

架构师（JiaGouX）

我们都是架构师！
架构未来，你来不来？

没有任何冷启动数据，7B 参数模型能单纯通过强化学习学会玩数独吗？

近日，技术博主 Hrishbh Dalal 的实践表明，这个问题的答案是肯定的。并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法，最终他「成功在一个小型数独数据集上实现了高奖励和解答」。

下面我们就来具体看看他的博客文章，了解一番他的开发思路。

原文地址：

https://hrishbh.com/teaching-language-models-to-solve-sudoku-through-reinforcement-learning/

现在的语言模型已经能完成很多任务了，包括写论文、生成代码和解答复杂问题。但是，如何让它们学会解答需要结构化思维、空间推理和逻辑推理的难题呢？这就是我最近的实验的切入点 —— 通过强化学习教语言模型解决数独问题。

教语言模型玩数独的难点

对语言模型来说，数独有自己独特的难点。不同于开放式的文本生成，玩数独需要：

• 遵循严格的规则（每行、每列和每框必须包含数字 1-9，且不能重复）
• 保持一致的网格格式
• 应用逐步的逻辑推理
• 理解网格元素之间的空间关系
• 得出一个正确的解答

有趣的是，语言模型并不是为结构化问题设计的。它们的训练目标是预测文本，而不是遵循逻辑规则或维持网格结构。然而，通过正确的方法，它们可以学会这些技能。

准备数据：

从数值到网格

本实验使用了来自 Kaggle 的包含 400 万数独的数据集，其中有非常简单的，也有非常困难的。准备数据集的过程包含几大关键步骤：

1、加载和过滤：使用 kagglehub 库下载数据集并根据难度级别过滤数独。

2、难度分类：根据线索数量，将数独分为四个难度级别：

• Level 1（非常简单）：50-81 条线索
• Level 2（简单）：40-49 条线索
• Level 3（中等）：30-39 条线索
• Level 4（困难）：17-29 条线索

3、每个数独一开始都被表示成了 81 个字符的字符串。这里将其转换为具有适当行、列和框分隔符的网格格式：

4、提示词工程：每个数独都会被封装在一个精心设计的提示词中，而该提示词的作用是指示模型：

• 在标签中逐步思考解决方案
• 在标签中提供具有适当网格格式的最终答案

对于初始实验，我创建了一个包含 400 个训练样本的聚焦数据集，这主要是使用更简单的数独来为学习构建一个基线。这个数据集被刻意选得较小，目的是测试模型使用有限样本学习的效率。加上我的资源有限：如果使用 unsloth grpo 训练，24GB RTX 4090 大约最多只能放入 3000 上下文长度。因此我只能选择更简单的问题以避免内存溢出（OOM），因为困难的问题及其推理链更长。

实验方法

我决定探索强化学习（尤其是 GRPO）能否让语言模型变成数独求解器。我实验了两种不同的模型大小：

• Qwen 2.5 7B Instruct：使用了秩为 16 的 LoRA 进行微调
• Qwen 2.5 3B Instruct：使用了秩为 32 的 LoRA 进行微调

重要的是，我没有使用冷启动数据或从 DeepSeek R1 等较大模型中蒸馏的数据。这里会从基础指令微调版模型开始，单纯使用强化学习。训练配置包括：

• 批量大小：1
• 梯度累积步骤：8
• 学习率：3e-4（Karpathy 常数）
• 最大部署：500
• 每 10 步评估一次
• 最大序列长度：3000 token

Andrej Karpathy 曾表示 3e-4 是 Adam 的最佳学习率

奖励系统：

通过反馈进行教学

强化学习的核心是奖励函数 —— 可以告诉模型它何时表现良好。我设计了一个多分量奖励系统，它具有几个专门的功能：

1. 格式合规性奖励

为了实现良好的解析，模型应该始终记得使用正确的思考和答案标签（分别是和标签）。这些标签有两个关键目的：

• 将推理过程与最终答案分开
• 使提取与评估模型的解答变得容易

为了强制实施这种结构，我实现了两个互补的奖励函数：

第一个函数（tags_presence_reward_func）为出现的每个标签提供部分 credit，其作用是鼓励模型包含所有必需的标签。第二个函数（tags_order_reward_func）则用于确保这些标签以正确的顺序出现 —— 先思考再回答。它们一起可教会模型保持将推理与解答分开的一致结构。