出品丨AI 科技大本营(ID:rgznai100)
在经历 CEO 被迫下台、核心研发团队成员离职等风波后,在文生图领域享受盛名的 AI 独角兽公司 S
tability AI 如约开源
Stable Diffusion 3 Medium,并号称这是迄今为止最先进且最新的文本图像开源生成模型。
Hugging Face 地址:
https://huggingface.co/stabilityai/stable-diffusion-3-medium
官网放出了一段效果视频,先赏为尽:
新推出的 Stable Diffusion Medium 旨在成为一款体积更小、功能强大的模型,能够在消费级 GPU 上流畅运行。目前该模型已授权非商业用途下载体验。
API 体验地址:
https://platform.stability.ai/
性能提升显著,
SD 3 Medium 亮点一览
据官博介绍,
SD3 Medium 是一款具备 20 亿参数的
MMDiT 图像
模型,
其在
图像质量、字体处理、复杂指令理解及资源效率等方面实现了显著的性能飞跃,其背后功臣则是
Diffusion Transformer 架构。
其中与英伟达合作的 TensorRT 优化版性能直接提升了 50%。
为此,官网还列出了
SD 3 Medium 的诸多亮点:
-
整体质量和照片级真实感:生成的图像细节丰富、色彩饱满、光影自然,既能实现逼真的照片级输出,也能适应多种风格的高质量创作。通过诸如 16 通道变分自编码器(VAE)等创新技术,该模型成功规避了其他模型常见的缺陷,比如在渲染手部和面部时的不真实感,从而提升了这些部位的表现力和真实度;
-
提示词理解能力:能深入理解包含空间推理、构成元素、动作及风格等复杂要素的长指令。用户可通过全部三个文本编码器的组合
使用,在性能与效率之间做出灵活取舍;
-
文字呈现:借助 Stability AI 的扩散变换器架构,实现了前所未有的文字质量,大幅减少了拼写错误、字距调整、字母形态和间距问题;
-
资源高效:较低的 VRAM 占用,即便是在标准消费级 GPU 上运行,也能保持高性能,无性能衰减之忧;
-
精细调校:即使面对小型数据集,也能精准吸收其中的细微特色,非常适合个性化定制。
同时,Stability 与英伟达和 AMD 开展合作。利用英伟达 RTX GPU 以及 TensorRT 增强全体 Stable Diffusion 模型(包括 SD3 Medium)的性能,TensorRT 优化版本更可提供 50% 的一流性能提升;AMD 已针对各类 AMD 设备(包括最新 APU、消费级 GPU 以及 MI-300X 企业级 GPU)优化了 SD3 Medium 的推理性能。
期待之下,不少用户及时测评了新模型的图片生成效果。
同时,日语用户还在感叹 SD 3 Medium 对非英语的提示词的输入识别理解及对应生成能力。
到了现实场景的人像生成时,各种诡异的现象发生了……
SD3 Medium 在人体图像生成能力上翻车了!
使用 Stable Diffusion 3 生成的躺在草地上的女孩的 AI 图像
使用 Stable Diffusion 3 Medium 生成的 AI 图像
根据实测表现,用户对该款模型的发布并未给到多少赞誉,反而是嘲笑的成分更多些:
这款号称最先进的图像合成模型,却在人像生成及人体部位绘制上比 Midjourney 或 DALL-E 3 的效果更差,着实令人大跌眼镜。
简直就是对上述官网列出的亮点第一条的大型打脸现场!各种匪夷所思的“鬼胎”生成,让网友直呼:太阴间!
在 Reddit 上,一篇名为“这个版本是个笑话吗?”的帖子详细描述了 SD3 Medium 在渲染人类特别是四肢(如手和脚)方面的失败。用户直接吐槽
道:
“S
tableDiffusion 与 Midjourney 的竞争时间并不长,现在它看起来简直像个笑话。唯一能拿出来说说的,就只有数据集安全和符合道德原则了!”
Stability 强调安全、负责任的 AI 实践原则,并已经采取并将继续通过合理措施以防范恶意行为者对 SD3 Medium 的滥用行为。该公司表示,安全自模型训练之时起,贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试,同时制定并实施了多项保护措施以防止危害发生。
然而,这样严苛的道德准则,也会影响训练图片中的过滤机制。