专栏名称: AGI Hunt

关注AGI 的沿途风景！

重磅！腾讯「混元」亮剑，超越Llama 3.1？

AGI Hunt · 公众号 · · 2024-11-06 00:00

正文

腾讯悄悄放出一枚重磅炸弹！

就在大家还在为各种大模型争论不休的时候，腾讯突然杀出一匹黑马——一个基于 1.5万亿合成数据 训练的超大规模MoE模型！

这个模型不仅参数量惊人， 性能更是直接超越了Meta的Llama 3.1 405B！

模型架构：MoE的魔力

腾讯这次推出的是一个 389B-A52B的MoE（混合专家）模型 。

什么意思呢？简单来说，这个模型有：

总参数量：236B
实际激活参数：21B
专家数量：160个
生成时激活专家：6个

这种结构的优势在于，它能在保持超大规模的同时， 大幅降低计算成本 。

想象一下，你有160位专家，但每次只需要6位出马，是不是很高效？

合成数据的威力

最让人惊讶的是这个模型的训练数据。

腾讯团队总共使用了 7万亿个token ，其中有 1.5万亿是合成数据 ！

Philipp Schmid(@_philschmid) 对此评论道：

合成数据就是你所需要的一切？腾讯的新型大规模MoE模型在1.5万亿个合成数据token上训练。这个389B-A52B的MoE模型在学术基准测试中超越了@AIatMeta的Llama 3.1 405B。

这意味着，合成数据正在成为大模型训练的新宠。

它不仅可以弥补真实数据的不足，还能帮助模型学习到更多样化的知识。

性能超越Llama 3.1

腾讯的这个模型在各项学术基准测试中都 超越了Meta的Llama 3.1 405B 。

这是一个相当惊人的成就，考虑到Llama 3.1已经是当前最先进的开源模型之一。

更让人兴奋的是，这个模型的FP8版本 理论上可以在单个H100节点（8卡）上运行 。

这大大降低了使用门槛，让更多研究者和开发者有机会一展身手。

开源及限制

腾讯对这个模型的开源策略也很有意思：

提供了预训练、指令微调和FP8三个版本
自定义许可证，允许月活用户低于100万的商业使用
但明确 禁止欧盟公民和公司使用

这种「区别对待」的许可策略背后，似乎颇有考量，暗藏玄机啊！

腾讯是在为未来的国际市场布局？还是对某些地区的监管有特殊考虑呢？

持续优化的技术艺术

模型的训练过程也值得关注：

主要训练了英文和中文数据
后训练阶段使用了SFT > DPO的流程
发布了详细的技术报告和扩展实验
在Hugging Face上开放了模型权重

这些细节展示了腾讯团队在模型优化上的深厚功力。

最后，你觉得国产模型要弯道超车了吗？

请到「今天看啥」查看全文

推荐文章

新京报评论 · 《甄嬛传》女演员“炫耀”肇事逃逸，何止是蠢 | 新京报快评

14 小时前

团结湖参考 · 现象级成果里，有最确定的“国运”

2 天前

政事堂2019 · DeepSeek之后，会如何？

2 天前

纪法指引 · 【镜鉴】黎邦华，搞权色、钱色交易！

2 天前

新京报评论 · 全村为患癌邻居翻修房屋，善举传递人性暖意 | 新京报快评

3 天前

上海发布 · 【图集】徐汇大型CBD中央公园未来长啥样？一大波效果图曝光！

8 年前

APPSO · 穿上这些 T 恤，颜值直线上升 | 玩物

7 年前

火石创造 · 在基因水平上治疗疾病，Editas Medicine让DNA“私人订制”成为可能

7 年前

中扑网 · 从扑克中学习人生道理（第四部分）：看到过去的波动

7 年前

IPRdaily · 中、美专利制度中「重复授权问题」的对比！

7 年前

重磅！腾讯「混元」亮剑，超越Llama 3.1？

正文

模型架构：MoE的魔力

合成数据的威力

性能超越Llama 3.1

开源及限制

持续优化的 技术 艺术

请到「今天看啥」查看全文

持续优化的技术艺术