专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

中国首个AI短剧模型开源，4090秒生好莱坞级大片！人人拍短剧时代来临

新智元 · 公众号 · AI · 2025-02-18 11:28

主要观点总结

昆仑万维开源了中国首个AI短剧视频生成模型SkyReels-V1和SOTA级别的基于视频基座模型的表情动作可控算法SkyReels-A1。SkyReels-V1具备影视级人物微表情表演生成能力，支持33种细腻人物表情与400+种自然动作组合。SkyReels-A1能将驱动视频中的面部表情和表演细节移植到参考图片的人物身上，生成高度逼真的人物动态视频。此次开源旨在推动全球AI短剧创作生态的繁荣发展，降低电影制作成本，实现文化的平权。

关键观点总结

关键观点1: 昆仑万维开源了首个AI短剧视频生成模型SkyReels-V1

SkyReels-V1具备影视级人物微表情表演生成能力，支持多种细腻人物表情和自然动作组合，高度还原真人情感表达。

关键观点2: 昆仑万维同时开源了SOTA级别的基于视频基座模型的表情动作可控算法SkyReels-A1

SkyReels-A1能将驱动视频中的面部表情和表演细节移植到参考图片的人物身上，生成没有失真、高度逼真的人物动态视频。

关键观点3: SkyReels-V1和SkyReels-A1的开源是AI短剧行业首例

这次开源是昆仑万维SkyReels回馈行业的一小步，也是促进AI短剧创作和视频生成行业枝繁叶茂的一大步，旨在推动全球AI短剧创作生态的繁荣发展。

关键观点4: 开源模型有助于降低电影制作成本

通过更多优秀视频生成模型的开源和极致的AI短剧产品能力，为用户带来低成本实现AI短剧创作的可能性，突破行业目前视频生成一致性差的问题。

关键观点5: 昆仑万维有信念实现文化的平权

AIGC能力的出现，包括视频生成能力的出现，将会降低电影制作成本，让所有人都能用AI来创作属于本民族的内容产品，实现文化的平权。

正文

新智元报道

编辑：编辑部 HYZ

【新智元导读】刚刚，中国首个AI短剧视频生成模型——SkyReels-V1正式开源，千万级好莱坞数据训练微调。更震撼的是，首个SOTA级表情动作可控算法同时开源，每一个表情，每一个肢体动作，AI精准掌控。

2月18日，昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1、中国首个SOTA级别基于视频基座模型的表情动作可控算法SkyReels-A1。

开源地址（SkyReels-V1）：https://github.com/SkyworkAI/SkyReels-V1

开源地址（SkyReels-A1）：https://github.com/SkyworkAI/SkyReels-A1

技术报告：https://skyworkai.github.io/skyreels-a1.github.io/report.pdf

SkyReels官方地址：skyreels.ai

针对当前全球AI视频生成模型和产品不开源、用不到、费用高、不好用等痛点，昆仑万维SkyReels一次性开源SkyReels-V1和SkyReels-A1两个SOTA级别的模型和算法，将面向AI短剧创作的技术成果回馈开源社区和AIGC用户。

而这只是在AI视频方向开源道路上的起点，未来将陆续开源更多面向AI短剧的优秀研究成果。

如今，AI视频和短剧的生产形式已经得到了市场的验证，拥有巨大的商业想象空间。

2024年8月上线的AI短剧创作平台SkyReels的目标是让用户以更低成本体验线上拍剧，利用AI能力解决传统短剧内容供给的难题。

SkyReels能够助力解决传统短剧制作流程中面临的挑战，如线下拍剧流程复杂，包括剧本创作、选演员、场景布景、分镜创作、拍摄、后期处理等环节，耗费人力多，制作成本贵，周期长等。

SkyReels-V1：Human-Centric Video Foundation Model，中国首个面向AI短剧创作的开源视频生成模型

AI短剧极其需要同时对大脑和肢体完成精细的控制功能，这就需要同时把口型生成、表情生成、肢体生成等多个生成组合在一起。

当前大家体验比较好的是口型生成，因为口型生成其实和音频信息之间具备更好的映射关系，因此它的精准度可以实现的更好，用户体验会更好。

而人物表演的细节和能力更是AI短剧生成效果优质与否的核心所在，为了大幅提升表情生成、肢体生成的可控表演效果，SkyReels-V1不仅针对表演细节做了打标，还对情绪、场景、表演诉求等进行处理，利用千万级别、高质量的好莱坞级别数据进行训练微调。

团队针对人物微表情、人物表演细节、场景描述、光影、画面构图等做了更精细的技术升级，可以看到当前由SkyReels生成的视频中的人物已经存在更精准的表演细节，初步具备影帝级人物表演实力。

SkyReels-V1可实现影视级人物微表情表演生成，支持33种细腻人物表情与400+种自然动作组合，高度还原真人情感表达。

正如以下视频所示，SkyReels-V1支持生成大笑、怒吼、惊讶、哭泣等微表情，展现出人物情感丰沛的表演细节。

即使有大幅度肢体动作，例如下面视频中，正在大口食用汉堡包的男士，SkyReels-V1生成的微表情也完美贴合人物肢体表演。

同时，SkyReels-V1为AI视频生成带来了电影级光影美学，基于好莱坞级的高质量影视数据训练，当前SkyReels生成的每一帧画面，在构图、演员站位、相机角度等都具备电影级的质感。

无论是单人镜头表演细节，还是多人构图，当前已具备精准的表情控制和高质感画面。

在下面视频中，SkyReels-V1生成的「灾难」片段，具有好莱坞大片即视感，场景宏大且有震撼感，其中聚焦到单个人物的脸部表情刻画也可圈可点，以极细致的程度展示出了身临其境的恐惧感。

在一场两个人的「告白时刻」场景中，构图与光影的完美融合，使整个画面既充满了梦幻般的浪漫氛围，又具备了强烈的视觉冲击力。

灵动的表情、飞舞的发丝、女子飞扬的衣袖、一道道柔和的光带，两人之间的浪漫爱情故事跃然眼前。

更重要的是，SkyReels-V1不仅支持文生视频、还能支持图生视频，是开源视频生成模型中参数最大的支持图生视频的模型，在同等分辨率下各项指标实现开源SOTA。

图1丨SkyReels-V1文生视频指标对比（来源：昆仑万维SkyReels）

能够实现这样的SOTA级别，不仅依赖于昆仑万维SkyReels团队基于自研的高质量数据清洗和人工标注管线，构建了千万级的高质量电影&电视剧&纪录片数据。

更依托团队自研「Human-Centric」的视频理解多模态大模型，大幅提升视频中人物相关的理解能力，尤其是自研人物智能解析系统。

综上所述，得益于扎实的数据工作和先进的人物智能解析系统，SkyReels-V1可以实现：

影视化表情识别体系： 11种针对影视戏剧中的人物表情理解，如不屑、不耐烦、无助、厌恶等表情的理解；
人物空间位置感知：基于人体三维重建技术，实现对视频中多人的空间相对关系理解，助力模型生成影视级人物站位；
行为意图理解：构建超过400种行为语义单元，实现对人物行为的精准理解；
表演场景理解：实现人物-服装-场景-剧情的关联分析。

SkyReels-V1不仅是全球极少数开源的视频生成模型，还是围绕人物表演、开源视频生成模型中性能最强的。

在自研推理优化框架「SkyReels-Infer」的加持下，大幅提升推理效率，实现544p分辨率，推理基于单台4090只需80s，还支持分布式多卡并行，支持Context Parallel，CFG Parallel，和VAE Parallel。

此外，采取fp8 quantization以及parameter-level offload，满足低显存用户级显卡运行需求；支持flash attention、SageAttention，模型编译优化等，进一步优化延迟；基于开源diffuser库，提升易用性。

正如下图2所示，在同等RTX4090资源情况下对比(4卡)，SkyReels-Infer版本比HunyuanVideo官方版本端到端延迟减少58.3%（293.3s vs 464.3s）；SkyReels-Infer版本具备更鲁棒的部署策略，支持用户级别显卡1卡-8卡的推理部署。

图2丨推理生成544p视频，使用相同卡数的RTX 4090，SkyReels-Infer版本端到端延迟优于HunyuanVideo官方（xdit）58.3%

在同等A800资源情况下对比，SkyReels-Infer版本比HunyuanVideo官方版本端到端延迟减少14.7%～28.2%（如图3所示），SkyReels-Infer版本具备更鲁棒的多卡部署策略。

图3丨推理生成544p视频，SkyReels-Infer版本具备更鲁棒的多卡部署策略，支持8卡部署

SkyReels-A1：首个SOTA级别的基于视频基座模型的表情动作可控算法

为了实现更加精准可控的人物视频生成，昆仑万维还开源了SOTA级别的基于视频基座模型的表情动作可控算法SkyReels-A1，对标Runway的Act-One，SkyReels-A1支持视频驱动的电影级表情捕捉，实现高保真微表情还原。

SkyReels-A1能够基于任意人体比例（包括肖像、半身及全身构图）生成高度逼真的人物动态视频，其真实感源自对人物表情变化和情绪的精准模拟、皮肤肌理、身体动作跟随等多维度细节的深度还原。

如下述视频所示，将参考人物图片（上图）和驱动视频（左下）同时作为输入，在SkyReels-A1的能力加持下，生成了新的视频——将驱动视频中的面部表情和表演细节「移植」到给定参考图片的人物身上。

SkyReels-A1支持生成的视频（下中）没有失真，且还原了驱动视频的微表情和肢体表演，效果优于Runway Act-One生成的视频（右下）。

SkyReels-A1不仅支持侧脸的表情控制生成、还能实现更加逼真的眉眼微表情生成和更大幅度的头部与自然身体动作。

例如同一句台词表演，从下面视频可以看出，最右边的人物有明显变样失真，和原始人物形象不一致，而SkyReels-A1支持和驱动下的人物表演，不仅人物不失真，且表演细节更真实，还可以实现神情与身体动作的自然完美融合。