专栏名称: 计算机视觉研究院
主要由来自于大学的研究生组成的团队,本平台从事机器学习与深度学习领域,主要在人脸检测与识别,多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌,让更多相关领域的人了解本团队,结识更多相关领域的朋友,一起来学习,共同进步!
目录
51好读  ›  专栏  ›  计算机视觉研究院

「用 AI 训 AI」这事靠谱吗?

计算机视觉研究院  · 公众号  ·  · 2024-05-02 12:00

正文

点击蓝字


关注我们

关注并星标

从此不迷路

计算机视觉研究院


公众号ID 计算机视觉研究院

学习群 扫码在主页获取加入方式


计算机视觉研究院专栏

Column of Computer Vision Institute

在大语言模型领域,微调是改进模型的重要步骤。 伴随开源模型数量日益增多,针对LLM的微调方法同样在推陈出新。


2024年初,Meta和纽约大学等机构的研究者提出了一项「自我奖励方法」,可以让大模型自己生成自己的微调数据。研究者对 Llama 2 70B 进行了三个迭代的微调,其生成的模型在 AlpacaEval 2.0 排行榜上优于 Claude 2、Gemini Pro 和 GPT-4 等现有大模型。


奖励模型能干什么?


大型语言模型通过以逐步思考链格式生成解决方案,解决需要复杂多步推理的任务。许多研究关注如何检测和减少幻觉对于提高推理能力。其中,通过训练奖励模型以区分期望的和不期望的输出则是一种有效的方法,奖励模型可以用于强化学习流程或通过拒绝采样进行搜索。如何有效地训练可靠的奖励模型至关重要。


OpenAI 提出了人类反馈强化学习 (RLHF) 的标准方法在 ChatGPT 发布时引起极大关注。该技术模型可以从人类偏好中学习奖励模型,再冻结奖励模型并结合强化学习训练 LLM。通过使用人类偏好数据调整大语言模型(LLM)可以提高预训练模型的指令跟踪性能。但 RLHF 存在依赖人类反馈的局限性。


在此背景下,Meta 提出的「自我奖励语言模型」(Self-Rewarding Language Models, SRLMs)是一种新型的语言模型,在训练过程中利用自身生成的反馈来自我提升。自我奖励语言模型不是被冻结,而是在 LLM 调整期间不断更新,避免了冻结奖励模型质量的瓶颈。


自我奖励模型的核心思路是什么?对比传统奖励模型有什么优势?

自我奖励语言模型(SRLMs)的核心思想在于创建一个智能体,该智能体在训练期间集成了所需的全部能力,而非将任务分离为奖励模型和语言模型。这种方法允许通过多任务训练实现任务迁移,从而在预训练和后续训练中跟随指令并生成响应。


Meta 等提出的自我奖励模型具备双重角色:一方面,它遵循模型的指令来生成给定提示的响应;另一方面,它也能够根据示例生成和评估新的指令,进而将其添加到训练集中。该模型建立在假设之上,即利用基础的预训练语言模型和少量的人工注释数据,可以创建一个同时具备指令遵循和自指令创建能力的模型。


图:自我奖励语言模型的对齐方法含两个步骤,(i)自指令创建:新创建的提示用于从模型 Mt 生成候选响应,该模型还通过“LLM作为法官”提示预测自己的奖励。(ii)指令遵循训练:从生成的数据中选择偏好对,这些对用于通过DPO(确定性策略梯度)进行训练,从而产生模型 Mt+1。然后可以迭代整个程序,从而提高指令遵循和奖励建模能力。


这种自对齐能力使得模型能够使用人工智能反馈(AIF)进行迭代训练,提升自身组件的性能。自我奖励模型的一个关键特点是其自指令创建机制,它不仅生成候选响应,还自行评估这些响应的质量,充当自身的奖励模型,从而减少了对外部模型的依赖。这一过程通过“LLM-as-a-Judge”机制实现,即将响应评估任务转化为指令遵循任务,而模型自身创建的 AIF 偏好数据则被用作训练集。


在微调阶段,模型同时扮演“学习者”和“法官”的角色,通过上下文微调进一步提升性能。整个过程是一个迭代的自对齐过程,通过构建一系列逐渐改进的模型来实现。


与传统的固定奖励模型不同,自我奖励模型在语言模型对齐过程中不断更新,从而避免了发展瓶颈,并提高了模型自我改进的潜力。相较于传统奖励模型,自我奖励模型的优势在于其动态性和自我迭代的能力。它通过整合奖励模型到同一系统中,实现了任务迁移,允许奖励建模任务和指令遵循任务相互促进和提升。


自我奖励模型和 RLAIF 有关联吗?







请到「今天看啥」查看全文