专栏名称: 待字闺中
深度分析大数据、深度学习、人工智能等技术,切中实际应用场景,为大家授业解惑。间或,也会介绍国内外相关领域有趣的面试题。
目录
相关文章推荐
陕西省文化和旅游厅  ·  陕西过大年 | ... ·  2 天前  
陕西省文化和旅游厅  ·  陕西过大年 | ... ·  2 天前  
西安晚报  ·  明天22时10分!陕西正式进入... ·  4 天前  
51好读  ›  专栏  ›  待字闺中

通过合成数据提升LLMs:Orca2

待字闺中  · 公众号  ·  · 2023-11-30 09:05

正文

今年早些时候,微软研究院推出了Orca,这是一个具有130亿参数的模型,能够模仿其他大型语言模型所展现的复杂推理过程。具体来说,Orca从GPT-4的信号中学习,包括解释性追踪、一步步细致的思考过程,以及大量复杂的指令。就在几天前,微软在这一研究领域取得了进一步的发展,发布了Orca 2,这是对开创性工作的扩展,它更深入地探索了小型语言模型(SLMs)的领域。这一新版本挑战了传统的推理方法,推动了该领域可能性的边界。

传统上,SLM的训练在很大程度上依赖于模仿学习,努力复制其更有名望对手的输出。然而,微软研究院认为,这种不懈的模仿强调可能无意中限制了这些小型模型的潜力。这里的目标是让小型LM能够采用多样的解决策略来处理各种任务,这些策略可能与它们更大的对手采取的路径有所不同。

Orca 2的核心在于两项关键技术:

1. 指令调优:这是一个在大型语言模型(LLM)领域中获得重视的新概念。这种技术涉及从输入-输出对中学习,其中输入包括自然语言任务描述,输出展示所期望的行为。指令调优的有效性已在提高模型遵循指令的能力方面得到证明,无论是熟悉的还是不熟悉的任务,都能提升生成内容的整体质量,并为模型提供更强的零样本(zero-shot)能力和高级推理技巧。

2. 解释调优:虽然指令调优非常高效,但它也有其局限性。值得注意的是,它可能导致模型生成在风格上合理但在事实上错误的输出。例如,过度简洁的目标指令调优可能会使学生模型缺乏对复杂推理过程的深刻理解,从而限制了它在不同任务中泛化的能力。为了解决这一问题,Orca 1引入了解释调优,这是一种旨在使用更丰富、更具表现力的推理信号来训练学生模型的新方法。这涉及到制定系统指令,促使教师模型在执行任务时提供详细解释。这些系统指令作为高级指导原则,LLMs必须在与个别用户提示互动时遵守,它们得益于ChatML界面中的“系统”角色标志,与用户发起的对话不同。

微软在Orca 2中结合了这两种技术,以实现一种在SLMS中似乎高效的推理类型。

Orca 2 和 谨慎推理(Cautious Reasoning)

审慎推理指的是为给定任务确定最合适的解决策略的过程。这个选择过程包括一系列选项,从直接生成答案到使用更深思熟虑的“慢思考”策略,如逐步推理、猜测和检查或解释然后回答等。以下阐明了培训审慎推理语言模型(LLM)的方法论:

1. 开始执行一系列多样化的任务,这些任务代表了一系列的挑战。

2. 根据从Orca的表现中获得的洞察,做出明智的决策,确定哪些任务需要特定的解决策略,无论是直接回答、逐步解答、先解释后回答,还是其他策略。

3. 根据选定的策略定制特定任务的系统指令,以便获取每项任务的教师反馈。

4. 在训练阶段,采用一种称为“提示擦除”的过程,将学生系统的指令替换为一个不包含任务具体细节的通用指令,强调模型的自主学习。

谨慎的推理过程在以下对话中清晰地展示出来,这显示了学生模型是如何在没有具体指令的情况下学习策略的。

为了训练Orca 2,微软构建了一个全新的数据集,拥有大约817,000个训练实例。Orca 2在Orca 1奠定的基础上进行了渐进式学习,从原始FLAN注释、Orca 1数据集以及新近创建的Orca 2数据集中抽取数据子集。这个训练数据集的基石仍然是FLAN,丰富了数学挑战和一些少量样本的例子。

Orca 2号训练的核心依赖于一种称为进步学习的技术,该技术的关键在于以LLaMA-2–7B或LLaMA-2–13B检查点开始训练,然后在FLAN-v2数据集的训练分割上进行单个周期的微调。值得注意的是,FLAN-v2数据集包含了零次学习和少次学习问题。随后,模型在奥卡1的500万个ChatGPT数据实例上进行了三个周期的训练。训练的最后阶段包括在一个综合数据集上进行四个周期的会话,该数据集由来自奥卡1和Orca 2的817,000个数据样本中的100万个GPT-4数据实例组成。







请到「今天看啥」查看全文