昨晚 Nvidia 发布的 Nemotron 70B 引发了大规模讨论。
#ai#
从他们自己的测试来看,分数完全超过了 Llama 3.1 405B、GPT4o 和 Claude 3.5 Sonnet。
以下是评估结果 (Nemotron 70B 对比 Claude 3.5 对比 GPT4o):
Arena Hard 测试:85.0 vs 79.2 vs 79.3
AlpacaEval 2 LC 测试:57.6 vs 52.4 vs 57.5
MT Bench 测试:8.98 vs 8.81 vs 8.74
核心是在训练过程中使用了 Llama-3.1-Nemotron-70B-Reward 和 HelpSteer2-Preference 提示进行 RLHF 训练。
同时模型的权重和数据集都是开源的。
但是在一些其他的测试集如GPQA和MMLU Pro和aider 上。
Nemotron 70B 和 Llama 3.1 70B 的表现差不多甚至更差,所以具体的能力还得看到时候 LLM 竞技场的评分了。
Huggingface 体验: 网页链接
模型下载: 网页链接
从他们自己的测试来看,分数完全超过了 Llama 3.1 405B、GPT4o 和 Claude 3.5 Sonnet。
以下是评估结果 (Nemotron 70B 对比 Claude 3.5 对比 GPT4o):
Arena Hard 测试:85.0 vs 79.2 vs 79.3
AlpacaEval 2 LC 测试:57.6 vs 52.4 vs 57.5
MT Bench 测试:8.98 vs 8.81 vs 8.74
核心是在训练过程中使用了 Llama-3.1-Nemotron-70B-Reward 和 HelpSteer2-Preference 提示进行 RLHF 训练。
同时模型的权重和数据集都是开源的。
但是在一些其他的测试集如GPQA和MMLU Pro和aider 上。
Nemotron 70B 和 Llama 3.1 70B 的表现差不多甚至更差,所以具体的能力还得看到时候 LLM 竞技场的评分了。
Huggingface 体验: 网页链接
模型下载: 网页链接