专栏名称: AGI Hunt
关注AGI 的沿途风景!
目录
相关文章推荐
新京报评论  ·  《甄嬛传》女演员“炫耀”肇事逃逸,何止是蠢 ... ·  14 小时前  
团结湖参考  ·  现象级成果里,有最确定的“国运” ·  2 天前  
政事堂2019  ·  DeepSeek之后,会如何? ·  2 天前  
纪法指引  ·  【镜鉴】黎邦华,搞权色、钱色交易! ·  2 天前  
51好读  ›  专栏  ›  AGI Hunt

重磅!腾讯「混元」亮剑,超越Llama 3.1?

AGI Hunt  · 公众号  ·  · 2024-11-06 00:00

正文

腾讯悄悄放出一枚重磅炸弹!

就在大家还在为各种大模型争论不休的时候,腾讯突然杀出一匹黑马——一个基于 1.5万亿合成数据 训练的超大规模MoE模型!

这个模型不仅参数量惊人, 性能更是直接超越了Meta的Llama 3.1 405B!

模型架构:MoE的魔力

腾讯这次推出的是一个 389B-A52B的MoE(混合专家)模型

什么意思呢?简单来说,这个模型有:

  • 总参数量:236B

  • 实际激活参数:21B

  • 专家数量:160个

  • 生成时激活专家:6个

这种结构的优势在于,它能在保持超大规模的同时, 大幅降低计算成本

想象一下,你有160位专家,但每次只需要6位出马,是不是很高效?

合成数据的威力

最让人惊讶的是这个模型的训练数据。

腾讯团队总共使用了 7万亿个token ,其中有 1.5万亿是合成数据

Philipp Schmid(@_philschmid) 对此评论道:

合成数据就是你所需要的一切?腾讯的新型大规模MoE模型在1.5万亿个合成数据token上训练。这个389B-A52B的MoE模型在学术基准测试中超越了@AIatMeta的Llama 3.1 405B。

这意味着,合成数据正在成为大模型训练的新宠。

它不仅可以弥补真实数据的不足,还能帮助模型学习到更多样化的知识。

性能超越Llama 3.1

腾讯的这个模型在各项学术基准测试中都 超越了Meta的Llama 3.1 405B

这是一个相当惊人的成就,考虑到Llama 3.1已经是当前最先进的开源模型之一。

更让人兴奋的是,这个模型的FP8版本 理论上可以在单个H100节点(8卡)上运行

这大大降低了使用门槛,让更多研究者和开发者有机会一展身手。

开源及限制

腾讯对这个模型的开源策略也很有意思:

  • 提供了预训练、指令微调和FP8三个版本

  • 自定义许可证,允许月活用户低于100万的商业使用

  • 但明确 禁止欧盟公民和公司使用

这种「区别对待」的许可策略背后,似乎颇有考量,暗藏玄机啊!

腾讯是在为未来的国际市场布局? 还是对某些地区的监管有特殊考虑呢?

持续优化的 技术 艺术

模型的训练过程也值得关注:

  • 主要训练了英文和中文数据

  • 后训练阶段使用了SFT > DPO的流程

  • 发布了详细的技术报告和扩展实验

  • 在Hugging Face上开放了模型权重

这些细节展示了腾讯团队在模型优化上的深厚功力。

最后,你觉得国产模型要弯道超车了吗?

相关链接

模型







请到「今天看啥」查看全文