专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

相关文章推荐

涵江时讯 · 莆田养生联队冠军！2025赤港农场兆玮足球邀 ... · 12 小时前

昆明信息港 · 昆明这个片区城改项目回迁房即将开建，位置在→ · 20 小时前

云南网 · 打击跨国电诈犯罪！老挝已对向缅甸大其力地区供 ... · 2 天前

掌上澄江 · 2025赛季，云南玉昆主场套票怎么买？预告来了→ · 2 天前

天都新闻 · 洋河股份董事长女儿现身春晚现场，一个镜头10 ... · 2 天前

51好读 › 专栏 › 深度学习自然语言处理

很荣幸邀请两位研究员分享：大模型数据合成和增强技术

深度学习自然语言处理 · 公众号 · · 2024-11-25 22:41

正文

关注NICE，不错过每周分享~

主题

大模型数据合成和增强技术

时间

2024.11.27 周三 20:00-21:00

论文：A Survey on Data Synthesis and Augmentation for Large Language Models
地址：https://arxiv.org/abs/2410.12896

大纲

大模型数据合成和增强技术的背景
大模型数据合成和增强技术的分类体系
大模型全生命周期角度下的数据合成和增强技术
大模型功能角度下的数据合成和增强技术
数据合成和增强的挑战与限制
数据合成和增强的未来方向

引言

大型语言模型（LLMs）的成功在很大程度上取决于大规模、多样化和高质量的数据。然而，随着训练数据集的迅速扩张，高质量数据的增长速度明显滞后，这导致了一个迫在眉睫的数据耗尽危机。因此，如何提高数据效率和探索新的数据来源成为了当前研究的重要课题。在这种背景下，生成数据作为一种潜在的解决方案逐渐受到关注。目前，数据生成主要包含两种方法：数据合成和数据增强。先前的研究主要从应用或者技术层面来探索的数据合成和增强方法。相比之下，我们以大语言模型为导向，旨在从数据的角度来系统地来探讨大模型不同生命周期和核心功能下的数据合成和增强技术，提供一个探索大模型数据科学的全新视角。