本文描述了使用GRPO方法训练模型学习阿毗达磨的过程,涉及了如何设计训练题目、模仿deepseek训练方式、对模型的理解和应对策略的调整,以及对于强化学习中奖励函数设计的重要性。文章还讨论了模型的表现拉胯的可能原因。
作者采用GRPO方法训练模型,通过设计特定格式的题目让模型学习阿毗达磨。最初效果不理想,经过调整奖励和惩罚机制,最终使模型理解并遵守格式规则。
奖励函数在强化学习中起着关键作用。作者通过不断调整奖励和惩罚机制来引导模型的学习和输出,使模型能够逐渐理解和遵守格式规则。
模型可以通过奖励和惩罚的影响改变策略。作者发现,在调整奖励和惩罚机制后,模型能够迅速适应并改变其输出行为。
当前AI在阿毗达磨问题上的表现不佳,可能原因在于模型的策略、训练数据的质量和算法的限制等。作者通过不断调整奖励函数和惩罚机制来尝试解决这个问题。
我最近在用GRPO(群体相对策略优化)方法训练3B的模型学习阿毗达磨。我的题目是从《大毗婆沙论》等经典中挖掉一些关键词,让模型填空。
如果是盲填,模型当然不行,我就给它十来个备选项,所以算是选择题。我也仿照deepseek的训练方式,要求格式和答案两方面。一开始的效果很沮丧,模型不仅回答不出答案,连格式都搞不对。我很怀疑它是不是看不懂提示词。于是在系统提示词和用户提示词里再三示例。
发现它还学不会,我就只好降低标准,它的回答里格式半对甚至四分之一对,也给它激励。这样,过了两个小时,它终于开始摸到格式的边了。发现能靠瞎蒙格式得分。又跑了半小时,我发现这家伙已经完全放弃题目本身,不管你问什么,它都给你输出一堆格式,而且不是标准的格式。
我只好反其道而行之,让它再这样乱搞就罚它。它大概搞不明白,为什么一开始靠这个能骗分,现在却要受到惩罚。但我想想,觉得这个思路是对的:一开始,哪怕它做得很差,只要有一点沾边,也要鼓励它,让它勇敢向前。但这不意味着它做得对或者做得好,这是鼓励它去探索,不要故步自封。而当它从肆无忌惮的探索中尝到甜头之后,要打压它,否则它就不知道真正正确的东西在哪里。所谓“先以欲勾牵,后令入佛智”。
我又想到,人也是这样面对社会和时代给他的奖励函数。一种并不好的行为,如果在一个时代一个社会,能让他尝到甜头,他就很快为此疯狂,乃至无所不用其极。这时候面临的一定是巨大的惩罚。
当我对模型胡乱输出格式开始惩罚后,它很快就放弃了这种行为,又回到了类似一开始规规矩矩的输出,虽然和刚开始训练的时候看起来差不多——仍然答不对阿毗达磨问题,但它对格式的理解和认知,一定有了和之前的不同。模型可以受奖励和惩罚的影响,改变策略,但是人只有一辈子,很多事情没有办法回头。