专栏名称: AIbase基地

阿里开源版 Sora 登顶 Hugging Face 榜首！Wan2.1 将 DeepSeek-R1 甩在身后

AIbase基地 · 公众号 · · 2025-03-04 20:01

正文

阿里的开源模型向来备受瞩目。在去年 6 月发布的 Qwen 系列于开发者社区中拥有良好的口碑，其中 72B、110B 模型曾多次在 Hugging Face 的开源模型榜单上登顶。而在去年 12 月发布的 DeepSeek-V3 又在当月超越了 Qwen 系列。

据开源社区 Hugging Face 的最新榜单显示，刚刚开源一周时间的阿里万相大模型成功登顶模型热榜与模型空间榜两大榜单，将 DeepSeek-R1 甩在身后。目前万相 2.1（Wan2.1）在 Hugging Face 以及魔搭社区的总下载量已然超过百万。此次阿里将 14B 和 1.3B 这两个参数规格进行了开源，并且同时支持文生视频和图生视频任务。

截屏2025-03-04 16.00.26.png

Wan 2.1 简介

Wan 2.1 是阿里巴巴集团通义实验室开发的一套全面且开源的视频基础模型，旨在突破视频生成的技术边界。它基于主流扩散 Transformer 结构构建，通过一系列创新技术，如新颖的时空变分自编码器（VAE）、可扩展的预训练策略、大规模数据构建和自动化评估指标，提升了模型的生成能力、性能和通用性。

该模型包含多个不同参数的版本，如 T2V-1.3B 和 T2V-14B（文本到视频模型）、I2V-14B-720P 和 I2V-14B-480P（图像到视频模型），以满足不同用户和应用场景的需求。

Wan 2.1 功能亮点

卓越性能超越同行： 在多项基准测试中，Wan 2.1 持续超越现有的开源模型和顶尖商业解决方案，在生成视频的质量、细节和真实感等方面达到业界领先水平。例如在 VBench 排行榜中，以总分 86.22% 的成绩登顶，击败 Sora、HunyuanVideo 等众多知名模型。
支持消费级 GPU 运行 ：T2V-1.3B 版本对硬件要求友好，仅需 8.19GB VRAM，就能在如 RTX 4090 等消费级 GPU 上运行。在 RTX 4090 上，大约 4 分钟可生成 5 秒 480P 视频，其性能甚至可与部分闭源模型相媲美，降低了使用门槛，方便个人开发者和研究者使用。
多种任务全面覆盖： 具备强大的多任务处理能力，涵盖文本到视频（T2V）、图像到视频（I2V）、视频编辑、文本到图像（T2I）以及视频到音频（V2A）等功能。用户既可以根据文本描述生成视频，也能将静态图片转化为动态视频，还能对现有视频进行编辑优化，以及实现文本生成图像和为视频自动匹配音频等操作。
视觉文本生成独特优势： 是首个支持在视频中生成中文和英文文本的视频模型，且生成的文本具有丰富的特效，能根据场景和载体进行合理变化，并随载体一同运动。无论是特效字体、海报字体，还是真实场景中的文字，都能精准生成，为视频创作增添丰富元素。
复杂运动精准还原： 擅长生成包含复杂运动的逼真视频，能够精准展现如人体的旋转、跳跃、舞蹈动作，以及物体的快速移动、场景转换等。像多人跳 hip-hop 时动作的同步、篮球场上球员投篮动作的流畅呈现、小狗在雪地里奔跑时的自然姿态等复杂运动场景，Wan 2.1 都能出色还原。
物理模拟高度真实： 可以准确模拟现实世界的物理规律和物体间的真实交互。在视频生成中，能真实展现物体的碰撞、反弹、切割效果，以及液体流动、物体的光影变化等物理现象。例如，模拟透明玻璃杯倾倒后牛奶流出的动态痕迹、草莓入水时与水的相互作用力等，使生成的视频更加贴近现实。
电影级画质呈现： 能够生成具有电影质感的视频，具备丰富的纹理和多样的风格化效果。通过调整参数和设置，可实现不同的视觉风格，如复古风、科幻风、写实风等，为用户带来高质量的视觉体验。像模拟无人机穿梭于摩天大楼间的城市夜景视频，能逼真地呈现出复杂的灯光效果和建筑风格，营造出震撼的视觉氛围。
精准遵循长文本指令： 对复杂的长文本指令理解能力强，能严格按照文本描述生成视频，确保细节完整。无论是多主体的运动场景，还是复杂的环境构建、氛围营造等要求，Wan 2.1 都能准确把握。例如，根据「欢乐派对现场，一群多元种族的年轻人在宽敞明亮的客厅中央尽情舞动……」这样的长文本，能生成符合描述的生动视频，人物形象、动作、场景氛围等都能精准呈现。

适用场景

阿里开源版 Sora 登顶 Hugging Face 榜首！Wan2.1 将 DeepSeek-R1 甩在身后

正文

请到「今天看啥」查看全文