专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
51好读  ›  专栏  ›  深度学习自然语言处理

很荣幸邀请两位研究员分享:大模型数据合成和增强技术

深度学习自然语言处理  · 公众号  ·  · 2024-11-25 22:41

正文

关注NICE,不错过每周分享~

主题

大模型数据合成和增强技术

时间

2024.11.27 周三 20:00-21:00

论文 :A Survey on Data Synthesis and Augmentation for Large Language Models
地址 :https://arxiv.org/abs/2410.12896

大纲

  1. 大模型数据合成和增强技术的背景
  2. 大模型数据合成和增强技术的分类体系
  3. 大模型全生命周期角度下的数据合成和增强技术
  4. 大模型功能角度下的数据合成和增强技术
  5. 数据合成和增强的挑战与限制
  6. 数据合成和增强的未来方向

引言

大型语言模型(LLMs)的成功在很大程度上取决于大规模、多样化和高质量的数据。然而,随着训练数据集的迅速扩张,高质量数据的增长速度明显滞后,这导致了一个迫在眉睫的数据耗尽危机。因此,如何提高数据效率和探索新的数据来源成为了当前研究的重要课题。在这种背景下,生成数据作为一种潜在的解决方案逐渐受到关注。目前,数据生成主要包含两种方法:数据合成和数据增强。先前的研究主要从应用或者技术层面来探索的数据合成和增强方法。相比之下,我们以大语言模型为导向,旨在从数据的角度来系统地来探讨大模型不同生命周期和核心功能下的数据合成和增强技术,提供一个探索大模型数据科学的全新视角。







请到「今天看啥」查看全文