专栏名称: NVIDIA企业开发者社区

NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台，通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。

开发者新闻 | 宣布 Nemotron-CC：一个用于 LLM 预训练的万亿 Token 英语语言数据集

NVIDIA企业开发者社区 · 公众号 · · 2025-01-26 14:55

正文

宣布 Nemotron-CC：一个用于

LLM 预训练的万亿 Token 英语语言数据集

NVIDIA 很高兴地宣布发布 Nemotron-CC，这是一个 6.3 万亿 token 的英语 Common Crawl 数据集，用于预训练高度精确的大型语言模型 (LLM)，其中包括 1.9 万亿 token 的合成生成数据。训练最先进的 LLM 的关键之一是高质量的预训练数据集，最近的顶级 LLM，如 Meta Llama 系列，是在包含 15 万亿个 token 的大量数据上进行训练的。

但人们对这 15 万亿 token 的确切组成知之甚少。Nemotron-CC 旨在解决这一问题，并使更广泛的社区能够训练高度准确的 LLM。互联网抓取数据，通常来自 Common Crawl，通常是 token 的最大来源。最近开放的 Common Crawl 数据集，如 FineWeb-Edu 和 DCLM，已经展示了如何在相对较短的 token 范围内大大提高基准准确性。然而，这是以删除 90% 的数据为代价的。这限制了长 token 视界训练的适用性，例如 Llama 3.1 的 15 万亿 token。

Nemotron-CC 填补了这一空白，并展示了如何通过分类器集成、合成数据改写和减少对启发式过滤器的依赖，将 Common Crawl 数据转换为比Llama 3.1 8B 更适合训练 LLM 的高质量数据集。

全文链接：

https://developer.nvidia.com/blog/announcing-nemotron-cc-a-trillion-token-english-language-dataset-for-llm-pretraining/