点击上方
蓝色
“
顶层架构领域
”,关注精彩与你分享
如下介绍信息来自混元DiT模型官网:
https://dit.hunyuan.tencent.com/
混元DiT是一个基于Diffusion transformer的文本到图像生成模型,此模型具有中英文细粒度理解能力。为了构建混元DiT,我们精心设计了Transformer结构、文本编码器和位置编码。我们构建了完整的数据管道,用于更新和评估数据,为模型优化迭代提供帮助。为了实现细粒度的文本理解,我们训练了多模态大语言模型来优化图像的文本描述。最终,混元DiT能够与用户进行多轮对话,根据上下文生成并完善图像。
-
中文元素理解:混元DiT提供双语生成能力,中国元素理解具有优势。
-
长文本理解能力:混元DiT能分析和理解长篇文本中的信息并生成相应艺术作品。
-
细粒度语义理解:混元DiT能捕捉文本中的细微之处,从而生成完美符合用户需要的图
-
多轮对话文生图:混元DiT可以在多轮对话中通过与用户持续协作,精炼并完善的创意构想。
魔搭社区模型链接:
https://modelscope.cn/models/modelscope/HunyuanDiT
开源代码链接:
https://github.com/Tencent/HunyuanDiT
按照混元DiT文生图模型的模型页面,需要的计算显存如下:
Model
|
TensorRT
|
Batch Size
|
GPU Memory
|
GPU
|
DialogGen + Hunyuan-DiT
|
✘
|
1
|
32G
|
V100/A100
|
Hunyuan-DiT
|
✘
|
1
|
11G
|
V100/A100
|
魔搭社区在DialogGen上支持了4bit的量化方式,在魔搭社区的免费算力上(24G)DialogGen + Hunyuan-DiT所需算力约为18G-19G,同时也可以在一张消费级显卡如3090上运行。
环境配置和安装:
-
python 3.10及以上版本
-
pytorch推荐2.0及以上版本
本文在魔搭社区免费提供的GPU免费算力上体验:
开发者也可以使用魔搭社区的官方镜像,在云端或自有的设备上体验。
下载和部署
第一步:clone代码到本地
git clone https://github.com/tencent/HunyuanDiT
cd HunyuanDiT
pip install loguru==0.7.2