专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
目录
51好读  ›  专栏  ›  AI科技大本营

人体绘制大翻车!“最先进”文生图开源模型 SD 3 Medium 究竟怎么了?

AI科技大本营  · 公众号  ·  · 2024-06-13 20:02

正文

整理 | 梦依丹
出品丨AI 科技大本营(ID:rgznai100)

在经历 CEO 被迫下台、核心研发团队成员离职等风波后,在文生图领域享受盛名的 AI 独角兽公司 S tability AI 如约开源 Stable Diffusion 3 Medium,并号称这是迄今为止最先进且最新的文本图像开源生成模型。

Hugging Face 地址:

https://huggingface.co/stabilityai/stable-diffusion-3-medium

官网放出了一段效果视频,先赏为尽:

新推出的 Stable Diffusion Medium 旨在成为一款体积更小、功能强大的模型,能够在消费级 GPU 上流畅运行。目前该模型已授权非商业用途下载体验。 API 体验地址:

https://platform.stability.ai/

性能提升显著, SD 3 Medium 亮点一览

据官博介绍, SD3 Medium 是一款具备 20 亿参数的 MMDiT 图像 模型, 其在 图像质量、字体处理、复杂指令理解及资源效率等方面实现了显著的性能飞跃,其背后功臣则是 Diffusion Transformer 架构。 其中与英伟达合作的 TensorRT 优化版性能直接提升了 50%。

为此,官网还列出了 SD 3 Medium 的诸多亮点:

  • 整体质量和照片级真实感:生成的图像细节丰富、色彩饱满、光影自然,既能实现逼真的照片级输出,也能适应多种风格的高质量创作。通过诸如 16 通道变分自编码器(VAE)等创新技术,该模型成功规避了其他模型常见的缺陷,比如在渲染手部和面部时的不真实感,从而提升了这些部位的表现力和真实度;
  • 提示词理解能力:能深入理解包含空间推理、构成元素、动作及风格等复杂要素的长指令。用户可通过全部三个文本编码器的组合 使用,在性能与效率之间做出灵活取舍;
  • 文字呈现:借助 Stability AI 的扩散变换器架构,实现了前所未有的文字质量,大幅减少了拼写错误、字距调整、字母形态和间距问题;
  • 资源高效:较低的 VRAM 占用,即便是在标准消费级 GPU 上运行,也能保持高性能,无性能衰减之忧;
  • 精细调校:即使面对小型数据集,也能精准吸收其中的细微特色,非常适合个性化定制。

同时,Stability 与英伟达和 AMD 开展合作。利用英伟达 RTX GPU 以及 TensorRT 增强全体 Stable Diffusion 模型(包括 SD3 Medium)的性能,TensorRT 优化版本更可提供 50% 的一流性能提升;AMD 已针对各类 AMD 设备(包括最新 APU、消费级 GPU 以及 MI-300X 企业级 GPU)优化了 SD3 Medium 的推理性能。

效果不错?人体绘制大翻车!
期待之下,不少用户及时测评了新模型的图片生成效果。

樱花少女,甜美可爱。

3D猫猫,萌感得让人想rua。
同时,日语用户还在感叹 SD 3 Medium 对非英语的提示词的输入识别理解及对应生成能力。
等等,事情并没有这么简单。
到了现实场景的人像生成时,各种诡异的现象发生了……

SD3 Medium 在人体图像生成能力上翻车了!
不少网友也晒出了更多翻车图片

使用 Stable Diffusion 3 生成的躺在草地上的女孩的 AI 图像

使用 Stable Diffusion 3 Medium 生成的 AI 图像

根据实测表现,用户对该款模型的发布并未给到多少赞誉,反而是嘲笑的成分更多些: 这款号称最先进的图像合成模型,却在人像生成及人体部位绘制上比 Midjourney 或 DALL-E 3 的效果更差,着实令人大跌眼镜。
简直就是对上述官网列出的亮点第一条的大型打脸现场!各种匪夷所思的“鬼胎”生成,让网友直呼:太阴间!
在 Reddit 上,一篇名为“这个版本是个笑话吗?”的帖子详细描述了 SD3 Medium 在渲染人类特别是四肢(如手和脚)方面的失败。用户直接吐槽 道: “S tableDiffusion 与 Midjourney 的竞争时间并不长,现在它看起来简直像个笑话。唯一能拿出来说说的,就只有数据集安全和符合道德原则了!”

问题就出在道德准则
Stability 强调安全、负责任的 AI 实践原则,并已经采取并将继续通过合理措施以防范恶意行为者对 SD3 Medium 的滥用行为。该公司表示,安全自模型训练之时起,贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试,同时制定并实施了多项保护措施以防止危害发生。
然而,这样严苛的道德准则,也会影响训练图片中的过滤机制。






请到「今天看啥」查看全文