最近使用元宝总结长内容和整理信息越来越多了,前几天突然想到说腾讯有一段时间没有特别大的发布了。
刚好今天他们就开了一个小型发布会,搞了两个大的,发布了目前业界规模最大的开源 MoE 大语言模型和一个已经在产品落地的 3D 生成模型。
元宝 APP 也更新了更多的能力,比如上线了 AI 搜索功能支持搜索 QQ 音乐的音乐和微信视频号的视频,更多模态的 AI 搜索,这下不得不用了,而且对于视频号生态的建设也很有帮助。
Hunyuan-Large MoE 模型
今天开源的 Hunyuan-Large 这个 MoE 大语言模型是目前业界最大规模的MoE 模型,业界最大的开源基于 Transformer 的 MoE 模型,总参数量达到 3890 亿,激活参数量为 520 亿。
简单解释一下什么是 MoE 模型:
MoE (专家混合模型)就像是一个由多个"专家"组成的团队,每个专家擅长处理不同类型的问题,系统会根据输入的具体问题自动选择最合适的专家来解答。
就像一个医院的分诊台,护士会根据病人的症状将其转介给最适合的专科医生一样。这样不仅能提高效率,还能保证问题得到最专业的处理。
模型特色:
•高质量合成数据:通过使用合成数据增强训练,Hunyuan-Large 能够学习更丰富的表示,处理长上下文输入,并更好地对未见数据进行泛化。•KV 缓存压缩:利用分组查询注意力(GQA)和跨层注意力(CLA)策略显著减少 KV 缓存的内存使用和计算开销,提高推理吞吐量。•专家特定学习率缩放:为不同专家设置不同的学习率,以确保每个子模型有效地从数据中学习并对整体性能做出贡献。•长上下文处理能力:预训练模型支持最长 256K 的文本序列,而指令模型支持最长 128K,显著增强了处理长上下文任务的能力。
另外他们也对模型推理框架做了很多优化,比如:
•引入了一种新的 CLA 结构,显著减少了 GPU 内存使用(KV-Cache 部分节省了 50%),确保了对长文本场景的高效处理。•通过 FP8 量化优化,实现与传统 FP16/BF16 量化相比内存使用减少 50%的同时保持精度,导致吞吐量提高 70%。
最后跑一下分吧:
从测试结果看 Hunyuan-Large 的成绩没有辜负他这个体量,在 MMLU、MMLU-Pro 和 CMMLU 这种综合测试下比同规模的 Llama 405B、Mixtral-8x22B等模型都要好很多。
另外在近期最重要的数学推理层面,Hunyuan-Large 成绩更是大幅领先其他同规模模型。
怎么使用:
Hunyuan-Large 会上线腾讯云TI平台,同步支持业务自主精调及部署测试。另外你可以在 Huggingface 等平台下载已经开源的模型权重。
Hunyuan3D-1.0
除了语言模型以外,腾讯作为游戏大户是必然不可能放过 3D 和游戏生成的。他们开源了Hunyuan3D-1.0 ,首个同时支持文字和图像生成开源 3D 生成模型。
Hunyuan3D-1.0 最重要的优势就是具有非常好的泛化性,无论是建筑、角色、场景、生物都可以很好的生成。
为了解决泛化性的问题 Hunyuan3D-1.0 主要由两个部分级联模型组成。
在第一阶段,采用多视图扩散模型,能在约4秒内高效生成多视图RGB图像。这些多视图图像从不同视角捕捉3D资产的丰富细节,将任务从单视图重建放宽到多视图重建。
在第二阶段,引入了一个前馈重建模型,能够在约7秒内根据生成的多视图图像快速且忠实地重建3D资产。重建网络学会处理多视图扩散引入的噪声和不一致性,并利用条件图像中可用的信息来高效恢复3D结构。
而且重点是他们整合了混元的图像生成模型,可以直接从文字生成 3D 模型,这是一个很大的突破。
那么效果怎么样呢,在他们自己的测试上,Hunyuan3D-1.0 在 5 个基准上都取得了非常好的成绩。
并在保证高质量、多样化生成的条件下,推理性能也达到了业界领先水平,显著减少了 3D 资产生产的耗时。
落地和使用
Hunyuan3D-1.0 在腾讯内部也已经在很多地方落地了,比如UGC 3D创作、商品素材合成、游戏3D资产生成等。
另外在腾讯地图里面他们也基于 Hunyuan3D-1.0 模型开发了自定义3D导航车标功能。
最重要体验入口是元宝APP,上线了”3D 角色梦工厂“,支持个性化的 UGC 3D 人物生成,3D 表现力还是很强了,推荐大家去试试。
混元Large地址
官网地址:https://llm.hunyuan.tencent.com/[1]
Github地址:https://github.com/Tencent/Tencent-Hunyuan-Large[2]
Hugging Face 地址:https://huggingface.co/tencent/Tencent-Hunyuan-Large[3]
3D模型地址
官网地址:https://3d.hunyuan.tencent.com/[4]
Github 地址:https://github.com/Tencent/Hunyuan3D-1[5]
Hugging Face 模型地址:https://huggingface.co/tencent/Hunyuan3D-1[6]
References
[1]
: https://llm.hunyuan.tencent.com/
[2]
: https://github.com/Tencent/Tencent-Hunyuan-Large
[3]
: https://huggingface.co/tencent/Tencent-Hunyuan-Large
[4]
: https://3d.hunyuan.tencent.com/
[5]
: https://github.com/Tencent/Hunyuan3D-1
[6]
: https://huggingface.co/tencent/Hunyuan3D-1