腾讯开源混元DiT文生图模型，消费级单卡可推理_顶层架构领域的专栏文章_微信文章

腾讯开源混元DiT文生图模型，消费级单卡可推理

顶层架构领域 · 公众号 · · 2024-06-07 19:58

正文

点击上方蓝色 “ 顶层架构领域 ”，关注精彩与你分享

引言

如下介绍信息来自混元DiT模型官网： https://dit.hunyuan.tencent.com/

混元DiT是一个基于Diffusion transformer的文本到图像生成模型，此模型具有中英文细粒度理解能力。为了构建混元DiT，我们精心设计了Transformer结构、文本编码器和位置编码。我们构建了完整的数据管道，用于更新和评估数据，为模型优化迭代提供帮助。为了实现细粒度的文本理解，我们训练了多模态大语言模型来优化图像的文本描述。最终，混元DiT能够与用户进行多轮对话，根据上下文生成并完善图像。

该模型具备如下优势

中文元素理解：混元DiT提供双语生成能力，中国元素理解具有优势。
长文本理解能力：混元DiT能分析和理解长篇文本中的信息并生成相应艺术作品。
细粒度语义理解：混元DiT能捕捉文本中的细微之处，从而生成完美符合用户需要的图
多轮对话文生图：混元DiT可以在多轮对话中通过与用户持续协作，精炼并完善的创意构想。

魔搭社区模型链接： https://modelscope.cn/models/modelscope/HunyuanDiT

开源代码链接： https://github.com/Tencent/HunyuanDiT

魔搭社区最佳实践

按照混元DiT文生图模型的模型页面，需要的计算显存如下：

Model	TensorRT	Batch Size	GPU Memory	GPU
DialogGen + Hunyuan-DiT	✘	1	32G	V100/A100
Hunyuan-DiT	✘	1	11G	V100/A100

魔搭社区在DialogGen上支持了4bit的量化方式，在魔搭社区的免费算力上（24G）DialogGen + Hunyuan-DiT所需算力约为18G-19G，同时也可以在一张消费级显卡如3090上运行。

环境配置和安装：

python 3.10及以上版本
pytorch推荐2.0及以上版本

本文在魔搭社区免费提供的GPU免费算力上体验：

开发者也可以使用魔搭社区的官方镜像，在云端或自有的设备上体验。

下载和部署

第一步：clone代码到本地

git clone https://github.com/tencent/HunyuanDiTcd HunyuanDiT# 安装魔搭镜像中缺少的依赖pip install loguru==0.7.2

腾讯开源混元DiT文生图模型，消费级单卡可推理

正文

环境配置和安装：

下载和部署

请到「今天看啥」查看全文