大模型专题：大语言模型合成数据的最佳实践和经验教训（附下载）

人工智能学派 · 公众号 · · 2024-04-29 15:57

正文

今天分享的是大模型专题系列深度研究报告：《大模型专题：大语言模型合成数据的最佳实践和经验教训》

报告共计： 26页

人工智能(AI) 技术的快速发展导致其在许多领域的广泛采用，从助理代理(例如，ACT-1，从熟练的AI’)和软件开发(例如，Devin，从认知实验室2)到医疗保健(2022，Singhal等人) 和金融(2022，Zheng等人)。然而，人工智能模型的成功在很大程度上依赖于用于训练和评估的大型、多样化和高质量数据集的可用性。由于数据稀缺(Babbar和schölkopf，2019)，隐私问题(Abay等人，2019)以及数据收集和注释的巨大成本(Gilardi等人，2023b)，获取这样的数据集可能是一个重大挑战。悲观主义者预测，我们将耗尽新的文本数据2050年和图像数据2060年(Vialobos等人,2022 )

合成数据已成为解决这些挑战的有前途的解决方案(Nikolenko，2021)。合成数据是指模拟现实世界数据的特征和模式的人工生成的数据，但通过算法(Saxton等人，2019)，生成模型(Borisov等人，2022;Meng等人，2022)，甚至是模拟(Liu等人，2023c; Vezhnevets等人，2023)，而不是由人类直接创建。通过利用合成数据，我们不仅可以克服现实世界数据的局限性，还可以释放开发更强大，可靠和公平的AI模型的潜力(Lu等人，2023:Lucini，2021)。

合成数据的许多好处之一是它可以大规模生成，为AI模型提供大量的训练和测试数据。这在真实世界数据稀缺或难以获得的领域(例如，覆盖所有条件的天气数据(Lam等人，2023:Li等人，2023a))中特别有价值。其次，合成数据可以根据特定要求进行定制，例如通过引入受控的变体来确保不同类别的平衡表示(例如，在多语言语言学习中增加低资源语言的权重(Przystupa和Abdul马吉德,2019))。这种对数据特性的控制水平可以提高模型性能和泛化能力。第三，合成数据可以通过创建不包含敏感个人信息的匿名化或去识别数据集来帮助减轻隐私问题(ElEmam等人，2020Howe等人，2017)。这在诸如医疗保健等领域是至关重要的，其中患者隐私是至关重要的(Dahmen和Cook，2019:Wei等人，2019).

尽管有其前景，但合成数据也提出了需要解决的挑战。其中之一是确保合成数据的真实性和保真度 (2017，Heusel等人;2021，Wood等人)，因为在虚假，幻觉或有偏见的合成数据上训练的模型可能无法推广到现实世界的场景(Guarnera等人。2020;2023 Van Breugel等人)。研究人员必须开发复杂的生成模型和评估指标，以创建准确反映现实数据中发现的复杂模式和关系的综合数据。另一个挑战是，如果不仔细设计和验证，合成数据可能会放大偏差或引入新的偏差(Barbierato等人，2022:Gupta等人，2021)。我们认为，严格的测试和公平性评估对于降低这些风险是必要的。

2.1.推理

数学.语言模型 (LMS)的数学推理的最新进展导致了各种方法的发展，以提高与数学相关的任务的性能。一种方法是对以数学为目标的预训练数据进行训练，例如Minerva(Lewkowycz等人，2022)，llema(Azerbayev等人，2023)和DeepSeekMath(Shao等人，2024)。另一种主流方法是生成合成问题和答案，以模仿目标基准的训练或验证集。例如，WizardMath(Luo等人，2023a)利用一系列操作来增加使用GPT-3.5的问题和答案的复杂性，而MetaMath(Yu等人，2023)通过以不同的方式重写它们来引导数学和GSM8K中的问题，如语义改写、自我验证和逆向推理。Gair-abel(2023，Chemn等人)发现，增强答案的格式对最终性能至关重要，答案首先是对问题的解释，然后是逐步解决方案，显示出比那些更好的性能。香草格式。Xwin-mat(Li等人，2024)进一步按比例放大合成SFT数据以100万示例，并发现LLaMA-27B模型(Touvron等人，2023)仍然可以从数据缩放中受益。MMIOC(Liu和Yao，2024)组成了一组数据集，这些数据集将SFT样式数据(通过问答改写或直接从MetaMath获取)与高质量数学预训练数据的子集(例如OpenWebMath，Paster等人，2023)结合在一起。

扩大合成数学数据的生成是一个简单的过程，但是确保生成的数学的正确性仍然是从业者面临的重大挑战。AlphaGeome- try(Trinh等人，2024)是最近通过使用10000万合成数据点训练神经模型来解决这个问题的尝试。该模型提出了解决方案，并指导符号演绎引擎在解决复杂几何问题时验证每个分支的正确性。通过将合成数据的力量与严格的验证过程相结合，AlphaGeometrny实现了与人类奥林匹克金牌得主相当的解决问题的能力，证明了这种方法在解决复杂的数学推理任务方面的潜力。

代码。与数学不同，用于代码推理的合成数据可以自然地将执行结果与结构化代码相结合，因为正确代码的一个要求是可执行的。在编码增强模型中，CodeRL(2022，Le等人)提出了一种行动者-批评家方法，以改进具有合成代码样本上的反馈信号的预训练语言模型。Haluptzok等人。(2022)提出了一种自我改进策略，其中模型生成自己的合成难题-解决方案对。然后，在用于调整语言模型之前，由真实的解释器对这些对进行验证和过滤。Shypula等人。(2023)进一步提出了一个框架，该框架利用模拟环境和自适应策略，例如自我改进合成数据生成和CoT提示代码优化。Yang等人。(2024)开发了InterCode，这是一个旨在增强强化学习环境中交互式代码生成的框架，其中代码充当动作，执行反馈充当观察。Renexion(Shinn等人，2024)采用外部或内部模拟的语言反馈信号来提高语言模型的代码推理能力。关于合成SFT数据，代码Alpaca包括通过跨21个种子任务将自指示 (Wang等人，2022a)应用于ChatGPT而自动生成的20k代码指令的数据集。WizardCoder (Luo等人，2023b)引入代码Evol-指示以启发式方式指导聊天。

大模型专题：大语言模型合成数据的最佳实践和经验教训（附下载）

正文

2.1.推理

请到「今天看啥」查看全文