Github:
https://github.com/Wan-Video
模型:
https://modelscope.cn/organization/Wan-AI
截止到目前,Wan2.1在vbench榜单中仍处在榜首位置。
万相Wan2.1是首个具备支持中文文字生成能力,且同时支持中英文文字特效生成的视频生成模型。用户只需输入简短的文字描述,即可生成具有电影级效果的文字和动画。支持多种场景下的字体应用,包括特效字体、海报字体以及真实场景中的字体展示,满足各种专业需求。
以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。
视频展示了令人捧腹的一幕:一只橘色的猫咪站在厨房的桌子前,宛如一位经验丰富的厨师。它身着专业的厨师装备——一件可爱的围裙,围裙上醒目地绣着中文“猫大师”,仿佛在宣告它的烹饪大师身份。猫咪用爪子灵活地拿着面团搓,动作滑稽但专注认真,让人忍俊不禁。厨房背景整洁明亮,台面上摆放着各种厨具和食材。镜头从侧面捕捉到猫咪的每一个细微动作,特写镜头展现了它认真的表情。近景动态画面,充满趣味性和创意。
万相Wan2.1已 上线 魔搭社区创空间 ,可以直接体验
DEMO:
https://modelscope.cn/studios/Wan-AI/Wan-2.1
万相大模型架构是主流的DiT,基于线性噪声轨迹Flow Matching范式训练,通过两个重要的技术创新实现了生成能力的大幅提升。
(一)特征缓存机制实现高效VAE
为了高效支持任意长度视频的编码和解码,万相在3D VAE的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程。这使显存的使用仅与Chunk大小相关而与原始视频长度无关,从而实现无限长1080P视频的高效编解码。
特征缓存机制
实验结果表明,万相的视频VAE在各项指标上均表现出极具竞争力的性能,展现出卓越视频质量和高处理效率的双重优势。 下图展示了不同VAE模型的模型计算效率和视频压缩重构指标的结果以及对应可视化对比,可以看到万相VAE在较小的模型参数下,实现了业内领先的视频压缩重构质量。
值得注意的是,在相同的硬件环境(单个A800 GPU)下,Wan2.1的VAE重建速度比现有的最先进方法(如HunYuanVideo)快2.5倍。 由于Wan2.1的VAE模型小尺寸设计和特征缓存机制,这种速度优势在更高分辨率下将更加明显。
万相视频VAE和其他VAE对比
(二)共享时间步特征映射实现高效视频DiT
万相模型架构基于主流的视频DiT结构,整体训练则采用了线性噪声轨迹的流匹配(Flow Matching)方法。关键的是,万相通过一组在所有Transformer Block中共享参数的MLP,将输入的时间步特征T映射为模型中AdaLN层的可学习缩放与偏置参数。实验证明在相同的参数规模下,这种共享时间步特征映射层参数的方法在保持模型能力同时可以显著降低参数和计算量。
万相视频模型架构图
数据精制和训练流程
万相构建了O(1)B量级视频和 O(10)B量级图像的训练数据集,这些数据来源于内部版权资源和公开数据集,同时设计了一个四步数据清洗流程,重点关注基础维度、视觉质量和运动质量。对应的整个预训练过程也分为四个阶段,每个阶段逐渐增加分辨率和视频时长,让模型在一定算力限制下得到更充分的训练。最终的SFT阶段,进行了更严格的数据过滤,保障模型稳定收敛到高质量视频输出。
数据清洗流程
全系列模型开源
万相团队开源全部推理代码和权重,包括两种尺寸的模型,1.3B参数的极速版和14B参数的专业版。即使是1.3B参数的极速版,其度量结果不仅超过了更大尺寸的开源模型,甚至还和一些闭源的模型结果接近。推理仅需8.19GB显存进行推理,可在消费级显卡上使用。其他不同参数量的模型,在不同GPU卡型上的推理耗时(秒)和显存消耗可以在下面的表格中查看。
Wan2.1系列模型在不同GPU配置上推理性能
魔搭社区的DiffSynth-Studio项目是社区针对AIGC模型生态,提供的全链路的推理和训练优化的开源工具( https://github.com/modelscope/DiffSynth-Studio )。
本次DiffSynth-Studio也第一时间为Wan2.1系列模型提供了全面支持。
详细信息可 参考:
https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/wanvideo
安装
通过以下命令可下载并安装 DiffSynth-Studio:
git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .
模型下载
modelscope download