专栏名称: NVIDIA企业开发者社区
NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台,通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。
目录
相关文章推荐
清单  ·  与失眠和解:4 款可能有用的睡眠好物 ·  16 小时前  
消费日报官方平台  ·  年货消费为家居行业全年发展“开好头” ·  19 小时前  
51好读  ›  专栏  ›  NVIDIA企业开发者社区

开发者新闻 | 宣布 Nemotron-CC:一个用于 LLM 预训练的万亿 Token 英语语言数据集

NVIDIA企业开发者社区  · 公众号  ·  · 2025-01-26 14:55

正文

宣布 Nemotron-CC:一个用于

LLM 预训练的万亿 Token 英语语言数据集


NVIDIA 很高兴地宣布发布 Nemotron-CC,这是一个 6.3 万亿 token 的英语 Common Crawl 数据集,用于预训练高度精确的大型语言模型 (LLM),其中包括 1.9 万亿 token 的合成生成数据。训练最先进的 LLM 的关键之一是高质量的预训练数据集,最近的顶级 LLM,如 Meta Llama 系列,是在包含 15 万亿个 token 的大量数据上进行训练的。


但人们对这 15 万亿 token 的确切组成知之甚少。Nemotron-CC 旨在解决这一问题,并使更广泛的社区能够训练高度准确的 LLM。互联网抓取数据,通常来自 Common Crawl,通常是 token 的最大来源。最近开放的 Common Crawl 数据集,如 FineWeb-Edu 和 DCLM,已经展示了如何在相对较短的 token 范围内大大提高基准准确性。然而,这是以删除 90% 的数据为代价的。这限制了长 token 视界训练的适用性,例如 Llama 3.1 的 15 万亿 token。


Nemotron-CC 填补了这一空白,并展示了如何通过分类器集成、合成数据改写和减少对启发式过滤器的依赖,将 Common Crawl 数据转换为比Llama 3.1 8B 更适合训练 LLM 的高质量数据集。




全文链接:

https://developer.nvidia.com/blog/announcing-nemotron-cc-a-trillion-token-english-language-dataset-for-llm-pretraining/

使用 NVIDIA Cosmos 世界基金会模型平台推进物理 AI



随着机器人技术和自动驾驶汽车的进步,加速物理 AI 的发展 — 使自动机器能够感知、理解和执行物理世界中的复杂动作 — 变得至关重要。这些系统的核心是世界基础模型 (WFM)— 通过物理感知视频模拟物理状态的 AI 模型,使机器能够做出准确的决策,并与周围环境无缝交互。

NVIDIA Cosmos 是一个平台,可帮助开发人员大规模构建物理 AI 系统的自定义世界模型。它为开发的每个阶段提供开放世界基础模型和工具,从数据管理到培训再到定制。






请到「今天看啥」查看全文