硅基浪子的回头

王路在隐身 · 公众号 · 热门自媒体 · 2025-03-03 17:26

主要观点总结

本文描述了使用GRPO方法训练模型学习阿毗达磨的过程，涉及了如何设计训练题目、模仿deepseek训练方式、对模型的理解和应对策略的调整，以及对于强化学习中奖励函数设计的重要性。文章还讨论了模型的表现拉胯的可能原因。

关键观点总结

关键观点1: 使用GRPO方法训练模型学习阿毗达磨

作者采用GRPO方法训练模型，通过设计特定格式的题目让模型学习阿毗达磨。最初效果不理想，经过调整奖励和惩罚机制，最终使模型理解并遵守格式规则。

关键观点2: 强化学习中的奖励函数设计

奖励函数在强化学习中起着关键作用。作者通过不断调整奖励和惩罚机制来引导模型的学习和输出，使模型能够逐渐理解和遵守格式规则。

关键观点3: 模型对奖励和惩罚的反应

模型可以通过奖励和惩罚的影响改变策略。作者发现，在调整奖励和惩罚机制后，模型能够迅速适应并改变其输出行为。

关键观点4: 阿毗达磨学习的挑战

当前AI在阿毗达磨问题上的表现不佳，可能原因在于模型的策略、训练数据的质量和算法的限制等。作者通过不断调整奖励函数和惩罚机制来尝试解决这个问题。

正文

我最近在用GRPO（群体相对策略优化）方法训练3B的模型学习阿毗达磨。我的题目是从《大毗婆沙论》等经典中挖掉一些关键词，让模型填空。

如果是盲填，模型当然不行，我就给它十来个备选项，所以算是选择题。我也仿照deepseek的训练方式，要求格式和答案两方面。一开始的效果很沮丧，模型不仅回答不出答案，连格式都搞不对。我很怀疑它是不是看不懂提示词。于是在系统提示词和用户提示词里再三示例。

发现它还学不会，我就只好降低标准，它的回答里格式半对甚至四分之一对，也给它激励。这样，过了两个小时，它终于开始摸到格式的边了。发现能靠瞎蒙格式得分。又跑了半小时，我发现这家伙已经完全放弃题目本身，不管你问什么，它都给你输出一堆格式，而且不是标准的格式。

我只好反其道而行之，让它再这样乱搞就罚它。它大概搞不明白，为什么一开始靠这个能骗分，现在却要受到惩罚。但我想想，觉得这个思路是对的：一开始，哪怕它做得很差，只要有一点沾边，也要鼓励它，让它勇敢向前。但这不意味着它做得对或者做得好，这是鼓励它去探索，不要故步自封。而当它从肆无忌惮的探索中尝到甜头之后，要打压它，否则它就不知道真正正确的东西在哪里。所谓“先以欲勾牵，后令入佛智”。

我又想到，人也是这样面对社会和时代给他的奖励函数。一种并不好的行为，如果在一个时代一个社会，能让他尝到甜头，他就很快为此疯狂，乃至无所不用其极。这时候面临的一定是巨大的惩罚。

当我对模型胡乱输出格式开始惩罚后，它很快就放弃了这种行为，又回到了类似一开始规规矩矩的输出，虽然和刚开始训练的时候看起来差不多——仍然答不对阿毗达磨问题，但它对格式的理解和认知，一定有了和之前的不同。模型可以受奖励和惩罚的影响，改变策略，但是人只有一辈子，很多事情没有办法回头。