专栏名称: 顶层架构领域
专注核心架构领域知识、经典干货总结、技术领域趋势跟踪,以通俗易懂的方式传播——复杂的事简单化
目录
相关文章推荐
一条漫画  ·  女友丝袜破了,男领导又送了她一双 ·  昨天  
一条漫画  ·  她给我发个呵呵...结果把我拉黑了 ·  2 天前  
51好读  ›  专栏  ›  顶层架构领域

腾讯开源混元DiT文生图模型,消费级单卡可推理

顶层架构领域  · 公众号  ·  · 2024-06-07 19:58

正文

点击上方 蓝色 顶层架构领域 ”,关注精彩与你分享

01

引言


如下介绍信息来自混元DiT模型官网: https://dit.hunyuan.tencent.com/


混元DiT是一个基于Diffusion transformer的文本到图像生成模型,此模型具有中英文细粒度理解能力。为了构建混元DiT,我们精心设计了Transformer结构、文本编码器和位置编码。我们构建了完整的数据管道,用于更新和评估数据,为模型优化迭代提供帮助。为了实现细粒度的文本理解,我们训练了多模态大语言模型来优化图像的文本描述。最终,混元DiT能够与用户进行多轮对话,根据上下文生成并完善图像。

该模型具备如下优势
  • 中文元素理解:混元DiT提供双语生成能力,中国元素理解具有优势。
  • 长文本理解能力:混元DiT能分析和理解长篇文本中的信息并生成相应艺术作品。
  • 细粒度语义理解:混元DiT能捕捉文本中的细微之处,从而生成完美符合用户需要的图
  • 多轮对话文生图:混元DiT可以在多轮对话中通过与用户持续协作,精炼并完善的创意构想。

魔搭社区模型链接: https://modelscope.cn/models/modelscope/HunyuanDiT

开源代码链接: https://github.com/Tencent/HunyuanDiT


02

魔搭社区最佳实践



按照混元DiT文生图模型的模型页面,需要的计算显存如下:

Model

TensorRT

Batch Size

GPU Memory

GPU

DialogGen + Hunyuan-DiT

1

32G

V100/A100

Hunyuan-DiT

1

11G

V100/A100

魔搭社区在DialogGen上支持了4bit的量化方式,在魔搭社区的免费算力上(24G)DialogGen + Hunyuan-DiT所需算力约为18G-19G,同时也可以在一张消费级显卡如3090上运行。


环境配置和安装:

  1. python 3.10及以上版本

  2. pytorch推荐2.0及以上版本


本文在魔搭社区免费提供的GPU免费算力上体验:

开发者也可以使用魔搭社区的官方镜像,在云端或自有的设备上体验。


下载和部署

第一步:clone代码到本地

git clone https://github.com/tencent/HunyuanDiTcd HunyuanDiT# 安装魔搭镜像中缺少的依赖pip install loguru==0.7.2






请到「今天看啥」查看全文