本文介绍了英伟达发布的最新开源模型Nemotron-4 340B系列,包括Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward。这些模型在多种任务上表现出强大的性能,特别是在合成数据生成方面有着广阔的应用前景。文章详细描述了模型的架构、训练细节和对齐过程,并分享了合成数据生成管道的全面细节。此外,文章还介绍了模型的评估结果,展示了其在常识推理任务和流行基准测试上的最佳表现。最后,文章强调了发布这些模型和代码的开放源代码许可协议,旨在促进透明度和可重复性,并鼓励对大型、功能强大的模型的广泛开源,以加速AI应用的开发以及LLMs的负责任使用的研究进展。
英伟达发布了最新开源模型Nemotron-4 340B系列,包括三个模型:Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward。这些模型在多种任务上表现出强大的性能,并且以开源的形式发布,支持社区中大型语言模型的持续发展。
Nemotron-4 340B系列模型在合成数据生成方面拥有广阔的应用前景,可以在改善预训练数据质量方面发挥巨大价值。此外,这些模型还在指令跟随、聊天能力、常识推理和代码处理等方面表现出色。
Nemotron-4 340B系列模型采用标准的解码器Transformer架构,使用旋转位置嵌入、 SentencePiece分词器等技术。模型的训练涉及大量的数据和高效的计算资源,包括768个DGX H100节点进行训练,每个节点配备高性能的NVIDIA Hopper架构的GPU。
Nemotron-4-340B-Base在常识推理任务和流行基准测试上取得了最佳表现,展示了其强大的性能。该模型在其他评估任务中也表现出竞争力。
英伟达通过开放源代码许可协议发布Nemotron-4 340B系列模型和代码,旨在促进透明度和可重复性。这鼓励了对大型、功能强大的模型的广泛开源,以加速AI应用的开发以及LLMs的负责任使用的研究进展。
本文翻译自英伟达发布的论文《Nemotron-4 340B Technical Report》,由机智流社区成员「北辰」翻译,整篇技术报告将分三期发布
全文约 3000 字,预计阅读时间 10 分钟
上周,NVIDIA 更新了其最新的开源超大模型
Nemotron-4 340B
,这次不仅放出了大模型的参数,也放出了全套预训练、对齐和奖励模型的训练代码,同时还有一份详细的技术报告!在 OpenAI 正在内部讨论要不要“CloseAI”的当下万分难得。现在,就跟着机智流一起来看下这篇诚意满满的技术报告吧。
关注机智流,并在后台回复
"340B"
,即可获取论文、模型和代码地址!
摘要
我们发布了 Nemotron-4 340B 模型系列,包括 Nemotron-4-340B-Base、Nemotron-4-340B-Instruct 和 Nemotron-4-340B-Reward。这些模型根据
NVIDIA 开源模型许可协议
(类似 Apache 2.0 协议)向社区进行开源。这些模型在众多的评估基准上与其他开源模型表现出了相似的竞争力,并能够以
FP8
精度部署在单个
DGX H100(配备8个GPU)
。我们相信,这些模型可以在各种研究和商业应用中为社区带来益处,特别是在生成合成数据以训练较小的语言模型方面。特别的是,我们在模型对齐过程中使用的数据中,有超过 98% 是通过合成生成的,这展示了这些模型在合成数据方面的有效性。为了进一步支持开源研究和促进模型开发,我们还将继续开源用于模型对齐过程的合成数据和生成管道。
数据合成管道
在这个合成数据生成管道中,首先使用 Nemotron-4 340B Instruct 模型生成合成文本输出。然后,评估模型 Nemotron-4 340B Reward 对生成的文本进行评估,提供反馈以指导迭代改进,确保合成数据准确、相关,并符合特定要求。
1 引言
大型语言模型(LLMs)在多种应用中的许多任务上都非常有效。近期的研究多集中在通过在更多、更高质量的 token 上预训练来提高这些模型的准确性。例如,Llama-2 系列在 2T token 上进行训练,而 Llama-3 系列在 15T token 上进行了训练。我们的 Nemotron-4 340B 基础模型则是用约 9T token 的高质量数据进行训练。
我们通过
监督式微调(SFT)
对基础大型语言模型(LLM)进行对齐,然后进行偏好微调,如通过
人类反馈强化学习(RLHF)
和
直接偏好优化(DPO)
。对齐过程使模型能够更好地跟随指令,有效进行对话,并更好地解决问题。对齐过程依赖于能够准确识别响应质量的奖励模型。这个奖励模型是 RLHF 的关键组成部分,也是合成数据生成中质量过滤和偏好排序的有用工具。
为了支持社区中大型语言模型的持续发展,我们引入了
Nemotron-4-340B-Base (基础模型)、Nemotron-4-340B-Instruct (指令对齐模型)和 Nemotron-4-340B-Reward (奖励模型)
,这些模型以开源模型的形式发布。图 1 显示了 Nemotron-4 340B 模型系列在特定任务中的准确性。具体来说,我们展示了 Nemotron-4-340B-Base 在常识推理任务(如 ARC-Challenge、MMLU 和 BigBench Hard 基准测试)上与 Llama-3 70B、Mixtral 8x22B 和最近发布的 Qwen-2-72B Base 等开源基础模型的竞争力。Nemotron-4-340B-Instruct 在指令跟随和聊天能力方面超过了相应的指令模型。Nemotron-4-340B-Reward 在发布时在 RewardBench上达到了最高的准确性,甚至超过了 GPT-4o-0513 和 Gemini 1.5 Pro-0514 等专有模型。我们也同步发布了我们的奖励模型,以支持社区中大型语言模型的持续发展。
图 1:系列模型表现,详细的评测结果见下文。
这些模型在合成数据的生成方面拥有广阔的前景,已在改善预训练数据质量方面显示出了巨大的价值。例如,数据合成已被用于重述网络文本、为文本质量分类器生成训练数据以及为在预训练集中代表性不足的领域创建数据。此外,合成数据生成对于对齐至关重要,因为收集人工标注数据的成本很高。我们大量使用合成数据来构建 Nemotron-4-340B-Instruct:我们在对齐过程中使用的超过 98% 的训练数据是通过合成生成的。除了分享我们的模型和对齐策略,我们还发布了我们的合成数据生成管道,其中包括合成
提示生成、响应和对话生成、质量过滤和偏好排序
。该管道旨在支持监督式微调和偏好微调,我们相信它有潜力通过使创建的高质量数据适应广泛的领域,从而惠及社区。
通过发布 Nemotron-4-340B-Base、Nemotron-4-340B-Instruct 和 Nemotron-4-340B-Reward,并分享我们的合成数据生成管道,我们希望鼓励对大型、功能强大的模型的广泛开源,以加速 AI 应用的开发以及 LLMs 的负责任使用的研究进展。我们致力于负责任的开发实践,并不希望模型被用于生成有害或有毒的内容。
贡献总结:
-
我们在 NVIDIA 开放模型许可协议下 发布了 Nemotron-4 340B 模型系列,包括 Nemotron-4-340B-Base、Nemotron-4-340B-Instruct 和 Nemotron-4-340B-Reward,适用于商业应用。
-
我们发布了这些模型的训练和推理代码,以促进透明度和可重复性。
-
我们提供了关于我们合成数据生成管道的全面细节,并展示了其在模型对齐中的有效性。我们还分享了我们的生成提示、人工标注的偏好数据集和 Nemotron-4-340B-Reward,用于质量过滤和偏好排序。未来,我们将分享更多工具,如 NVIDIA 推理微服务(NIMs)用于合成数据生成。
2 预训练
2.1 数据
我们的预训练数据包括了三种不同类型的数据:英语自然语言数据(70%)、多语种自然语言数据(15%)和源代码数据(15%)。英语语料库来自各来源和领域的精选文档组成,包括网页文档、新闻文章、科学论文、书籍等。我们的多语种数据包含53种自然语言,由单语种和平行语料库的文档组成,而我们的代码数据集由 43 种编程语言组成。我们在这些数据上总共训练了 9T token,其中前 8T token 用于正式的预训练阶段,1T token 用于持续预训练阶段。有关我们训练语料库和策划程序的更详细分解,我们参考了 Parmar 等人的研究, Nemotron-4-340B-Base 与 Nemotron-4-15B-Base 遵循相同的数据构成。
2.2 架构细节
Nemotron-4-340B-Base 的架构与 Nemotron-4-15B-Base相似。它是一个标准的解码器 Transformer 架构,具有因果注意力掩码,使用旋转位置嵌入(RoPE),SentencePiece 分词器,以及在 MLP 层中使用平方 ReLU 激活。没有使用 bias,dropout 为零,并且输入输出嵌入是未绑定的。我们也使用了分组查询注意力(GQA)。Nemotron-4-340B-Base 的超参数如表1所示,有 94 亿嵌入参数和 3316 亿非嵌入参数。
表1: 影响 Nemotron-4-340B-Base 大小的核心超参数。
2.3 训练细节
Nemotron-4-340B-Base 使用 768 个 DGX H100 节点进行训练的;每个节点包含 8 个基于 NVIDIA Hopper 架构的 H100 80GB SXM5 GPU。每个 H100 GPU 进行 16位浮点(bfloat16)算术时具有 989 teraFLOP/s 的峰值吞吐量,不包括稀疏性。在每个节点内,GPU 通过 NVLink 和 NVSwitch(nvl)连接;GPU 到 GPU 的带宽为 900 GB/s(每方向 450 GB/s)。每个节点有 8 个 NVIDIA Mellanox 400 Gbps HDR InfiniBand 主机通道适配器(HCAs)用于节点间通信。