专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

人体绘制大翻车！“最先进”文生图开源模型 SD 3 Medium 究竟怎么了？

AI科技大本营 · 公众号 · · 2024-06-13 20:02

正文

整理 | 梦依丹

出品丨AI 科技大本营（ID：rgznai100）

在经历 CEO 被迫下台、核心研发团队成员离职等风波后，在文生图领域享受盛名的 AI 独角兽公司 S tability AI 如约开源 Stable Diffusion 3 Medium，并号称这是迄今为止最先进且最新的文本图像开源生成模型。

Hugging Face 地址：

https://huggingface.co/stabilityai/stable-diffusion-3-medium

官网放出了一段效果视频，先赏为尽：

新推出的 Stable Diffusion Medium 旨在成为一款体积更小、功能强大的模型，能够在消费级 GPU 上流畅运行。目前该模型已授权非商业用途下载体验。 API 体验地址：

https://platform.stability.ai/

性能提升显著， SD 3 Medium 亮点一览

据官博介绍， SD3 Medium 是一款具备 20 亿参数的 MMDiT 图像模型，其在图像质量、字体处理、复杂指令理解及资源效率等方面实现了显著的性能飞跃，其背后功臣则是 Diffusion Transformer 架构。其中与英伟达合作的 TensorRT 优化版性能直接提升了 50%。

为此，官网还列出了 SD 3 Medium 的诸多亮点：

整体质量和照片级真实感：生成的图像细节丰富、色彩饱满、光影自然，既能实现逼真的照片级输出，也能适应多种风格的高质量创作。通过诸如 16 通道变分自编码器（VAE）等创新技术，该模型成功规避了其他模型常见的缺陷，比如在渲染手部和面部时的不真实感，从而提升了这些部位的表现力和真实度；
提示词理解能力：能深入理解包含空间推理、构成元素、动作及风格等复杂要素的长指令。用户可通过全部三个文本编码器的组合使用，在性能与效率之间做出灵活取舍；
文字呈现：借助 Stability AI 的扩散变换器架构，实现了前所未有的文字质量，大幅减少了拼写错误、字距调整、字母形态和间距问题；
资源高效：较低的 VRAM 占用，即便是在标准消费级 GPU 上运行，也能保持高性能，无性能衰减之忧；
精细调校：即使面对小型数据集，也能精准吸收其中的细微特色，非常适合个性化定制。

同时，Stability 与英伟达和 AMD 开展合作。利用英伟达 RTX GPU 以及 TensorRT 增强全体 Stable Diffusion 模型（包括 SD3 Medium）的性能，TensorRT 优化版本更可提供 50% 的一流性能提升；AMD 已针对各类 AMD 设备（包括最新 APU、消费级 GPU 以及 MI-300X 企业级 GPU）优化了 SD3 Medium 的推理性能。

效果不错？人体绘制大翻车！

期待之下，不少用户及时测评了新模型的图片生成效果。

樱花少女，甜美可爱。

3D猫猫，萌感得让人想rua。

同时，日语用户还在感叹 SD 3 Medium 对非英语的提示词的输入识别理解及对应生成能力。

等等，事情并没有这么简单。

到了现实场景的人像生成时，各种诡异的现象发生了……

SD3 Medium 在人体图像生成能力上翻车了！

不少网友也晒出了更多翻车图片：

使用 Stable Diffusion 3 生成的躺在草地上的女孩的 AI 图像

使用 Stable Diffusion 3 Medium 生成的 AI 图像

根据实测表现，用户对该款模型的发布并未给到多少赞誉，反而是嘲笑的成分更多些：这款号称最先进的图像合成模型，却在人像生成及人体部位绘制上比 Midjourney 或 DALL-E 3 的效果更差，着实令人大跌眼镜。

简直就是对上述官网列出的亮点第一条的大型打脸现场！各种匪夷所思的“鬼胎”生成，让网友直呼：太阴间！

在 Reddit 上，一篇名为“这个版本是个笑话吗？”的帖子详细描述了 SD3 Medium 在渲染人类特别是四肢（如手和脚）方面的失败。用户直接吐槽道： “S tableDiffusion 与 Midjourney 的竞争时间并不长，现在它看起来简直像个笑话。唯一能拿出来说说的，就只有数据集安全和符合道德原则了！”

问题就出在道德准则

Stability 强调安全、负责任的 AI 实践原则，并已经采取并将继续通过合理措施以防范恶意行为者对 SD3 Medium 的滥用行为。该公司表示，安全自模型训练之时起，贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试，同时制定并实施了多项保护措施以防止危害发生。

然而，这样严苛的道德准则，也会影响训练图片中的过滤机制。

人体绘制大翻车！“最先进”文生图开源模型 SD 3 Medium 究竟怎么了？

正文

请到「今天看啥」查看全文