专栏名称: 歸藏的AI工具箱

产品设计师🎨 AI画图工具操作员🔧 AI课程撰写与信息收集整理📰 致力于发掘借助AI工具改善设计与产品开发流程的各种可能性🤔

腾讯整了两个大的，开源最大规模 MoE 模型、优质 3D 生成模型

歸藏的AI工具箱 · 公众号 · 互联网安全科技自媒体 · 2024-11-05 17:08

主要观点总结

腾讯最近召开小型发布会，发布了业界规模最大的开源MoE大语言模型和已落地的3D生成模型。元宝APP也更新了更多能力，包括AI搜索功能和对视频号生态的帮助。MoE模型是由多个专家组成的团队，根据具体问题自动选择最合适的专家解答。模型具有高质量合成数据、KV缓存压缩、专家特定学习率缩放等特色。同时，模型推理框架也进行了优化。除了语言模型外，腾讯还开源了Hunyuan3D-1.0，一个同时支持文字和图像生成的3D生成模型，具有非常好的泛化性，并能从文字直接生成3D模型。该模型在多个基准上取得好成绩，并在腾讯内部多个场景落地。

关键观点总结

关键观点1: 腾讯发布业界规模最大的开源MoE大语言模型。

模型被称为Hunyuan-Large，总参数量达到3890亿，激活参数量为520亿。模型特色包括高质量合成数据、KV缓存压缩等。

关键观点2: MoE大语言模型的应用与优化。

MoE模型就像由多个专家组成的团队，能够处理不同类型的问题。模型推理框架进行了优化，包括CLA结构的引入和FP8量化优化等。

关键观点3: 腾讯开源的Hunyuan3D-1.0模型。

这是一个同时支持文字和图像生成的3D生成模型，具有非常好的泛化性。该模型由两个级联模型组成，能够高效生成多视图RGB图像并快速重建3D资产。

关键观点4: Hunyuan3D-1.0模型的突破与应用。

该模型可以直接从文字生成3D模型，在多个基准上取得好成绩，并在腾讯内部多个场景落地，如UGC 3D创作、商品素材合成等。

正文

最近使用元宝总结长内容和整理信息越来越多了，前几天突然想到说腾讯有一段时间没有特别大的发布了。

刚好今天他们就开了一个小型发布会，搞了两个大的，发布了目前业界规模最大的开源 MoE 大语言模型和一个已经在产品落地的 3D 生成模型。

元宝 APP 也更新了更多的能力，比如上线了 AI 搜索功能支持搜索 QQ 音乐的音乐和微信视频号的视频，更多模态的 AI 搜索，这下不得不用了，而且对于视频号生态的建设也很有帮助。 null

Hunyuan-Large MoE 模型

今天开源的 Hunyuan-Large 这个 MoE 大语言模型是目前业界最大规模的MoE 模型，业界最大的开源基于 Transformer 的 MoE 模型，总参数量达到 3890 亿，激活参数量为 520 亿。

简单解释一下什么是 MoE 模型 ：

MoE (专家混合模型)就像是一个由多个"专家"组成的团队,每个专家擅长处理不同类型的问题,系统会根据输入的具体问题自动选择最合适的专家来解答。

就像一个医院的分诊台,护士会根据病人的症状将其转介给最适合的专科医生一样。这样不仅能提高效率,还能保证问题得到最专业的处理。

模型特色：

• 高质量合成数据：通过使用合成数据增强训练，Hunyuan-Large 能够学习更丰富的表示，处理长上下文输入，并更好地对未见数据进行泛化。 • KV 缓存压缩：利用分组查询注意力（GQA）和跨层注意力（CLA）策略显著减少 KV 缓存的内存使用和计算开销，提高推理吞吐量。 • 专家特定学习率缩放：为不同专家设置不同的学习率，以确保每个子模型有效地从数据中学习并对整体性能做出贡献。 • 长上下文处理能力：预训练模型支持最长 256K 的文本序列，而指令模型支持最长 128K，显著增强了处理长上下文任务的能力。

另外他们也对模型推理框架做了很多优化，比如 ：

• 引入了一种新的 CLA 结构，显著减少了 GPU 内存使用（KV-Cache 部分节省了 50%），确保了对长文本场景的高效处理。 • 通过 FP8 量化优化，实现与传统 FP16/BF16 量化相比内存使用减少 50%的同时保持精度，导致吞吐量提高 70%。

最后跑一下分吧 ：

从测试结果看 Hunyuan-Large 的成绩没有辜负他这个体量，在 MMLU、MMLU-Pro 和 CMMLU 这种综合测试下比同规模的 Llama 405B、Mixtral-8x22B等模型都要好很多。

另外在近期最重要的数学推理层面，Hunyuan-Large 成绩更是大幅领先其他同规模模型。

怎么使用 ：

Hunyuan-Large 会上线腾讯云TI平台，同步支持业务自主精调及部署测试。另外你可以在 Huggingface 等平台下载已经开源的模型权重。

Hunyuan3D-1.0

除了语言模型以外，腾讯作为游戏大户是必然不可能放过 3D 和游戏生成的。他们开源了Hunyuan3D-1.0 ，首个同时支持文字和图像生成开源 3D 生成模型。

Hunyuan3D-1.0 最重要的优势就是具有非常好的泛化性，无论是建筑、角色、场景、生物都可以很好的生成。

为了解决泛化性的问题 Hunyuan3D-1.0 主要由两个部分级联模型组成。

在第一阶段，采用多视图扩散模型，能在约4秒内高效生成多视图RGB图像。这些多视图图像从不同视角捕捉3D资产的丰富细节，将任务从单视图重建放宽到多视图重建。

在第二阶段，引入了一个前馈重建模型，能够在约7秒内根据生成的多视图图像快速且忠实地重建3D资产。重建网络学会处理多视图扩散引入的噪声和不一致性，并利用条件图像中可用的信息来高效恢复3D结构。

而且重点是他们整合了混元的图像生成模型，可以直接从文字生成 3D 模型，这是一个很大的突破。 null

那么效果怎么样呢，在他们自己的测试上， Hunyuan3D-1.0 在 5 个基准上都取得了非常好的成绩。

并在保证高质量、多样化生成的条件下，推理性能也达到了业界领先水平，显著减少了 3D 资产生产的耗时。 null

落地和使用

Hunyuan3D-1.0 在腾讯内部也已经在很多地方落地了，比如UGC 3D创作、商品素材合成、游戏3D资产生成等。

另外在腾讯地图里面他们也基于 Hunyuan3D-1.0