专栏名称: 歸藏的AI工具箱
产品设计师🎨 AI画图工具操作员🔧 AI课程撰写与信息收集整理📰 致力于发掘借助AI工具改善设计与产品开发流程的各种可能性🤔
目录
相关文章推荐
消费日报官方平台  ·  直面“高佣”痛点 京东“搅局”外卖市场 ·  昨天  
消费日报官方平台  ·  直面“高佣”痛点 京东“搅局”外卖市场 ·  昨天  
涵江时讯  ·  正式上线!一扫便知其“前世今生” ·  昨天  
涵江时讯  ·  正式上线!一扫便知其“前世今生” ·  昨天  
云技术  ·  1.57亿元,云南省政务云大单 ·  2 天前  
51好读  ›  专栏  ›  歸藏的AI工具箱

腾讯整了两个大的,开源最大规模 MoE 模型、优质 3D 生成模型

歸藏的AI工具箱  · 公众号  · 互联网安全 科技自媒体  · 2024-11-05 17:08

主要观点总结

腾讯最近召开小型发布会,发布了业界规模最大的开源MoE大语言模型和已落地的3D生成模型。元宝APP也更新了更多能力,包括AI搜索功能和对视频号生态的帮助。MoE模型是由多个专家组成的团队,根据具体问题自动选择最合适的专家解答。模型具有高质量合成数据、KV缓存压缩、专家特定学习率缩放等特色。同时,模型推理框架也进行了优化。除了语言模型外,腾讯还开源了Hunyuan3D-1.0,一个同时支持文字和图像生成的3D生成模型,具有非常好的泛化性,并能从文字直接生成3D模型。该模型在多个基准上取得好成绩,并在腾讯内部多个场景落地。

关键观点总结

关键观点1: 腾讯发布业界规模最大的开源MoE大语言模型。

模型被称为Hunyuan-Large,总参数量达到3890亿,激活参数量为520亿。模型特色包括高质量合成数据、KV缓存压缩等。

关键观点2: MoE大语言模型的应用与优化。

MoE模型就像由多个专家组成的团队,能够处理不同类型的问题。模型推理框架进行了优化,包括CLA结构的引入和FP8量化优化等。

关键观点3: 腾讯开源的Hunyuan3D-1.0模型。

这是一个同时支持文字和图像生成的3D生成模型,具有非常好的泛化性。该模型由两个级联模型组成,能够高效生成多视图RGB图像并快速重建3D资产。

关键观点4: Hunyuan3D-1.0模型的突破与应用。

该模型可以直接从文字生成3D模型,在多个基准上取得好成绩,并在腾讯内部多个场景落地,如UGC 3D创作、商品素材合成等。


正文

最近使用元宝总结长内容和整理信息越来越多了,前几天突然想到说腾讯有一段时间没有特别大的发布了。

刚好今天他们就开了一个小型发布会,搞了两个大的,发布了目前业界规模最大的开源 MoE 大语言模型和一个已经在产品落地的 3D 生成模型。

元宝 APP 也更新了更多的能力,比如上线了 AI 搜索功能支持搜索 QQ 音乐的音乐和微信视频号的视频,更多模态的 AI 搜索,这下不得不用了,而且对于视频号生态的建设也很有帮助。

Hunyuan-Large MoE 模型

今天开源的 Hunyuan-Large 这个 MoE 大语言模型是目前业界最大规模的MoE 模型,业界最大的开源基于 Transformer 的 MoE 模型,总参数量达到 3890 亿,激活参数量为 520 亿。

简单解释一下什么是 MoE 模型

MoE (专家混合模型)就像是一个由多个"专家"组成的团队,每个专家擅长处理不同类型的问题,系统会根据输入的具体问题自动选择最合适的专家来解答。

就像一个医院的分诊台,护士会根据病人的症状将其转介给最适合的专科医生一样。这样不仅能提高效率,还能保证问题得到最专业的处理。

模型特色:

高质量合成数据:通过使用合成数据增强训练,Hunyuan-Large 能够学习更丰富的表示,处理长上下文输入,并更好地对未见数据进行泛化。 KV 缓存压缩:利用分组查询注意力(GQA)和跨层注意力(CLA)策略显著减少 KV 缓存的内存使用和计算开销,提高推理吞吐量。 专家特定学习率缩放:为不同专家设置不同的学习率,以确保每个子模型有效地从数据中学习并对整体性能做出贡献。 长上下文处理能力:预训练模型支持最长 256K 的文本序列,而指令模型支持最长 128K,显著增强了处理长上下文任务的能力。

另外他们也对模型推理框架做了很多优化,比如

引入了一种新的 CLA 结构,显著减少了 GPU 内存使用(KV-Cache 部分节省了 50%),确保了对长文本场景的高效处理。 通过 FP8 量化优化,实现与传统 FP16/BF16 量化相比内存使用减少 50%的同时保持精度,导致吞吐量提高 70%。

最后跑一下分吧

从测试结果看 Hunyuan-Large 的成绩没有辜负他这个体量,在 MMLU、MMLU-Pro 和 CMMLU 这种综合测试下比同规模的 Llama 405B、Mixtral-8x22B等模型都要好很多。

另外在近期最重要的数学推理层面,Hunyuan-Large 成绩更是大幅领先其他同规模模型。

怎么使用

Hunyuan-Large 会上线腾讯云TI平台,同步支持业务自主精调及部署测试。另外你可以在 Huggingface 等平台下载已经开源的模型权重。

Hunyuan3D-1.0

除了语言模型以外,腾讯作为游戏大户是必然不可能放过 3D 和游戏生成的。他们开源了Hunyuan3D-1.0 ,首个同时支持文字和图像生成开源 3D 生成模型。

Hunyuan3D-1.0 最重要的优势就是具有非常好的泛化性,无论是建筑、角色、场景、生物都可以很好的生成。

为了解决泛化性的问题 Hunyuan3D-1.0 主要由两个部分级联模型组成。

在第一阶段,采用多视图扩散模型,能在约4秒内高效生成多视图RGB图像。这些多视图图像从不同视角捕捉3D资产的丰富细节,将任务从单视图重建放宽到多视图重建。

在第二阶段,引入了一个前馈重建模型,能够在约7秒内根据生成的多视图图像快速且忠实地重建3D资产。重建网络学会处理多视图扩散引入的噪声和不一致性,并利用条件图像中可用的信息来高效恢复3D结构。

而且重点是他们整合了混元的图像生成模型,可以直接从文字生成 3D 模型,这是一个很大的突破。

那么效果怎么样呢,在他们自己的测试上, Hunyuan3D-1.0 在 5 个基准上都取得了非常好的成绩。

并在保证高质量、多样化生成的条件下,推理性能也达到了业界领先水平,显著减少了 3D 资产生产的耗时。

落地和使用

Hunyuan3D-1.0 在腾讯内部也已经在很多地方落地了,比如UGC 3D创作、商品素材合成、游戏3D资产生成等。

另外在腾讯地图里面他们也基于 Hunyuan3D-1.0







请到「今天看啥」查看全文