专栏名称: 歸藏的AI工具箱
互联网科技博主 产品设计师、模型设计师、 不会代码的独立开发者。 关注人工智能、LLM 、 Stable Diffusion 和设计。
目录
相关文章推荐
938重庆私家车广播  ·  《阿凡达3》预计年底上映,卡梅隆:为三部中最佳电影 ·  昨天  
938重庆私家车广播  ·  《阿凡达3》预计年底上映,卡梅隆:为三部中最佳电影 ·  昨天  
科幻世界SFW  ·  新书上市 | ... ·  4 天前  
51好读  ›  专栏  ›  歸藏的AI工具箱

昨晚 Nvidia 发布的 Nemotron 70B 引发了大规-20241017105520

歸藏的AI工具箱  · 微博  ·  · 2024-10-17 10:55

正文

2024-10-17 10:55

昨晚 Nvidia 发布的 Nemotron 70B 引发了大规模讨论。 #ai#

从他们自己的测试来看,分数完全超过了 Llama 3.1 405B、GPT4o 和 Claude 3.5 Sonnet。

以下是评估结果 (Nemotron 70B 对比 Claude 3.5 对比 GPT4o):

Arena Hard 测试:85.0 vs 79.2 vs 79.3
AlpacaEval 2 LC 测试:57.6 vs 52.4 vs 57.5
MT Bench 测试:8.98 vs 8.81 vs 8.74

核心是在训练过程中使用了 Llama-3.1-Nemotron-70B-Reward 和 HelpSteer2-Preference 提示进行 RLHF 训练。

同时模型的权重和数据集都是开源的。

但是在一些其他的测试集如GPQA和MMLU Pro和aider 上。

Nemotron 70B 和 Llama 3.1 70B 的表现差不多甚至更差,所以具体的能力还得看到时候 LLM 竞技场的评分了。

Huggingface 体验: 网页链接
模型下载: 网页链接






请到「今天看啥」查看全文