随着大模型技术从技术变革转向产业变革,大模型应用也会进一步繁荣,传统基础设施技术已经不足以满足大模型应用的快速发展,整个基础设施技术和产业链正在快速转型,向大模型基础设施技术演变。2025 QCon 全球软件开发大会(北京站)策划了「面向 AI 的研发基础设施」专题,将深入分析 AI 基础设施的关键技术,包括机房服务器和芯片设计、大规模高性能网络技术、分布式模型并行技术、推理架构优化、算法和工程的结合等优化技术,以及它们在大规模生产环境中的应用和实践。如果你有相关案例想要分享,欢迎通过以下链接提交演讲申请:https://jsj.top/f/tUOLpz MuseAI 是由阿里集团爱橙科技研发的面向阿里内部的 AIGC 创作工作台,同时通过与阿里云旗下魔搭社区合作共建的形式,将主体能力通过魔搭社区的 AIGC 专区对公众开放。本文主要介绍该设计平台的定位、目标和主要功能点,同时介绍了一些阿里内部应用的形式与案例。
考虑到 MuseAI 平台本身是公司内部服务,下文通过底层技术同源的魔搭社区 AIGC 专区来做说明与介绍,为避免混淆,下文如未特意提及,“ MuseAI ”和“魔搭社区 AIGC 专区”指代同一事物。
设计及其上下游衍生工作是很多企业内部工作流中的重要组成部分,设计工作传统上是重人力的,这意味着不可避免地会带来设计耗时长、质量不稳定、复用性低等问题。有不少设计相关的商业模式也因为这些特点会在论证初期就被否决掉,比如完全个性化的营销设计内容生成,在传统设计模式下,这个成本显然完全无法接受的。
而随着 AIGC 技术的兴起和发展,上述情况有了获得极大改善的可能性,以 sd- WebUI 和 Midjourney 为代表的社区和商业公司方案已经能在概念设计、营销素材、游戏素材等现阶段比较适合的领域取得非常广泛的应用,极大提高了效率和产出的平均质量。而且可以预见的是,随着技术的进一步发展, AIGC 技术带来的设计质量和适用范围还会持续提高扩大。
但同时我们也观察到,目前市场上一些主流的 AIGC 创作工具和平台还存在很多的限制和不适合企业团队使用的地方,以社区和商业公司的两类代表 WebUI 和 Midjourney 为例:
WebUI 是纯社区驱动,功能设计、产品形态甚至安装方式都不是典型的软件服务的形式,大量设计工作者会被其复杂凌乱的页面、艰难的安装流程、插件 / 依赖管理这些完全不应该由终端用户关心的问题所困扰。软件本身虽然免费开源,但是需要的高端消费级显卡也是不小的负担。对于团队来说,给设计团队配备一套统一的 WebUI 环境也是个需要投入技术和维护成本的事情。此外, WebUI 的 license 扩散风险也始终是商业公司难以放心使用的关键点。
Midjourney 是另一类的代表,闭源模型再结合社区内的用户行为反馈,让 Midjourney 在不少设计垂直领域拿出了目前最优秀的产出质量,操作相对也比较简单。但是相对来说,其功能的灵活性和可控程度就低了很多,难以通过其接口获得定制且稳定的产出并结合到工作流中。其通过 Discord 形式提供的接口也很不符合公司企业接入的习惯。
总体来说我们认为, AIGC 领域的原始算法与最终具有生产价值的 AI 绘图产品之间存在很大差距,现有的很多工具过于集中于底层技术视角,这对许多用户而言在使用上是很大的挑战,这部分差距需要由产品、算法、专业经验、基础设施和算力等多方资源补足;一个 AI 绘图产品到能被集成到个人或公司的工作链路中,去真正提升工作中的生产力,同样还需要投入大量的产研资源去填平两者之间的沟壑。
正是基于上述分析,爱橙科技 - 智能引擎团队与通义实验室 - 魔搭团队一起投入并建设了魔搭社区 AIGC 专区(MuseAI)。这是一个专为设计打造的 AI 绘图生产力平台,旨在为创作者提供流畅惊艳的绘画体验,也为大众提供了一个围绕 AIGC 的模型、设计讨论社区,促进相关生态发展。后续还将持续提供平台能力帮助个人与团队进行二次开发,快速构建垂直领域的 AI 创作服务。
我们提供了一个专业的、以 AIGC 为核心的 web 端设计工作台,开箱即用,对公众免费开放使用体验。主要提供了下列功能:
快速 / 专业生图:MuseAI 既提供了简单易用的快速生图功能,帮助用户体验 AIGC 技术以及快速验证创意想法,也提供了功能对标 A1111/stable-diffusion- WebUI 的专业生图功能,用户可以在此做进一步的参数调整,产出能用于生产、质量稳定的设计素材。
模型广场:用户可以在此浏览查找满足自己需求的各类 SD 相关模型并应用在生图功能中,如果公共模型中没有满足需求的,我们还支持用户自行上传模型。
LoRA 模型训练:平台支持通过少量图片,训练得到拥有专属风格、对象的 LoRA 模型,从而快速、稳定地满足不同业务场景的需求。相比开源社区里的各种训练器,我们重新设计了交互流程并且利用各种 AI 技术大大降低了数据准备的门槛。同时背靠弹性资源池里的高性能显卡,用户可以训练更大规格的模型。
创意广场:用户可以将创作出来的图片发布到公开的创意广场中和其他用户一起交流,也可以通过他人分享的图片来一键生成复现。
交流社区:更多的创意和想法需要在交流中碰撞激发,魔搭社区本来就提供了以模型、文章为核心的交流社区, AIGC 专区内还额外增设模型返图区、图片交流等渠道,方便用户分享经验,共同进步。
除了用户直接操作的 web 端设计工作台,MuseAI 还提供了一套将 AIGC 技术融入各个业务线,或者应用于各个业务团队内部工作流程的服务化解决方案。当设计师在平台上调出一组符合业务要求的模型、参数、流程后,平台提供了能力将这些东西封装起来,转换成一个稳定的、可复现的简单 Open API 接口,从而被各个场景按自己需要的方式集成进来。相比直接调用 sd- webUI 的 API ,或者用 diffusers 之类的库自行搭建服务等手段,我们的解决方案有下列优势:
我们从底层自研了 MuseAI 的生图引擎,完全脱离了对 sd- webUI 和 diffusers 的依赖,这进一步带来了下列好处:
法务安全:彻底规避了 sd- webUI AGPL 协议的法务风险,可以安全地用于公司的生产级业务中。
性能优势:我们能够对全链路做性能优化,底层的 cuda 算子优化、量化 / DeepCache 等弱损优化、模型权重的多级分布式缓存、请求流量的亲近性分配、在离线任务的分级队列……我们在 MuseAI 平台之下做了非常多的优化工作,并且都是正交可配置的,能充分满足不同场景的不同需求。
多架构模型支持:我们把模型和生图流程做了解耦,从而可以在平台上支持完全不同的基础模型,因此我们才可以非常快速地支持 SD3 模型并且让高清修复、局部重绘之类的功能完美兼容。
所见即所得:MuseAI 的产品页面和 Open API 最终是转换成相同的请求调用到了生图引擎上,这意味着在平台上调试出来的生图效果在生产环境可以直接复现,避免了设计和工程为最终效果来回修改调试。
接口易用:MuseAI 支持将调试出来的各项参数按需固定并转换成场景专用的简易 API ,任何人都可以借助平台生成下游非常容易理解和对接的接口。
这部分功能在阿里内部的平台上已经投入使用,魔搭社区 AIGC 专区会通过魔搭统一的 API Inference 接口对外提供,这部分功能还在进行中。
下面再具体展开介绍一下平台目前已经有的核心功能。
仅通过简洁的描述即可迅速生成高质量图像,这一功能旨在便于快速验证创意和探索灵感。它特别适用于那些刚入门 AI 创作领域的用户,帮助他们轻松上手。该过程中,包括 prompt 生成、模型选择以及参数调整,均由大型语言模型(LLM)自动处理。我们的平台对生成图像的质量负责,并将不断迭代更新各种艺术风格及其背后的模型与参数组合。这确保了用户能够以最小的成本,快速实现他们的视觉创意,充分探索和实验他们的灵感。
针对专业设计师,我们精心打造了一个高级的生成图形界面,旨在为设计师提供一个功能丰富、灵活多样的创作环境。具体来说,我们目前提供了下面这些功能,且还在持续迭代增加中:
提供详细的 SD 相关可调参数,支持丰富的文本到图像、图像到图像生成能力。
支持包括任意底模(包括最新的 Flux、SD3.5)、LoRA、vae 在内的多种模型选择和组合能力,为设计工作提供灵活性和多样性。
整合了社区中流行的高清修复、ADetailer 等高级功能,使得作品细节更加精致。
完善的 ControlNet 支持,极大增强了生成作品的可控制性,帮助设计师精准实现创意构想。
- 全面发挥 AI 的潜力,提供 prompt 自动优化和辅助编写功能,以及多种模型辅助的前后处理功能,从而提高工作效率和创作的精度。
与 A1111/stable-diffusion- WebUI 的效果对齐
考虑到现阶段多数专业设计师对社区 sd- WebUI 的熟悉以及可能已有一些现成工作流基于 sd- WebUI ,我们在和 sd- WebUI 直接对应的功能点上做了效果的对齐,在开启各种优化的前提下和 sd- WebUI 的出图一致率可以超过 95%,保证了大量已有工作可以平滑迁移。
平台非常重视模型这一 AI 创作中的核心要素,所以我们为用户提供一个强大且直观的模型管理系统。该系统的设计初衷是帮助用户高效地浏览、管理和使用各种类型的模型,无论是用户自行上传的、还是平台第一方提供的海量模型资源。下面我们会介绍一下模型广场页面以及在线训练 LoRA 功能。
我们的模型页面旨在简化用户的操作过程和提升用户体验。页面上列出的模型覆盖了底模、LoRA、VAE 等多种类型,这保证了不同用户需求的满足。无论用户是倾向于探索新的创意,还是优化现有的项目,我们的平台都能提供所需的工具。此外,我们深知社区的力量,因此支持用户自行上传模型。这意味着用户可以轻松访问和利用其他创作者的成果,为自己的项目带来新的灵感和可能性。同时,为了保证用户能够无缝使用这些资源,我们的平台支持多种社区格式和不同版本的 SD 模型。
我们精心设计了 LoRA 模型训练流程,以确保每位用户都能高效、便捷地训练出质量上乘的模型,同时消除技术门槛。我们实现了下面的功能来达到这一目的:
训练用数据集的创建:我们为用户提供了一个直观的界面来创建训练数据集,无论是手动上传单个图片,还是批量上传大量数据,都无需繁复的准备工作。
高级预处理功能:用户不必自行处理务必的预处理工作,平台提供自动抠图、tag 反推等先进功能,从而精准地准备训练数据,保障了模型训练的出众表现。
智能化配置推荐:基于用户的具体训练目的,我们的算法会自动生成训练图片配比建议和配置相关参数,大大降低了非专业用户对于专业知识的需求。
计算资源和训练执行:提交训练任务后,任务将在后端计算中心执行,那里拥有弹性调配的高性能显卡和计算资源,以最佳的性价比达成训练目标。
实时监控与展示:平台还为用户提供了实时的训练监控功能,包括中间阶段生成图像的展示和训练指标的实时汇总,这样用户可以随时追踪任务进展并进行必要的调整。
阿里公益是直接使用平台的合作模式,业务团队的高级设计师在平台上训练自己的 IP 形象 LoRA 模型,并调试好生图时的各项参数,作为一种预设参数保存下来。后续团队内的初级设计师用这组预设参数批量生成 IP 营销素材并进一步加工。该业务团队使用平台后提高了数倍的人效,业务方对此非常满意
效果展示