好活！字节，南加大，斯坦福等新开源的小人跳舞X-Dyna，人脸、背景都生动起来了

机器之心 · 公众号 · AI · 2025-02-14 14:31

主要观点总结

机器之心AIxiv专栏报道了人像视频生成（Human-Video-Animation）领域的研究进展。文章介绍了该研究方向的广泛应用前景和当前研究工作面临的挑战，如动态细节生成、表情控制和背景静止等问题。文章还重点介绍了一个名为X-Dyna的研究项目，该项目旨在解决这些问题并实现自然逼真的人像视频生成。该项目包含三个主要部分，分别是轻量跨视频帧的注意力模块、人脸局部控制模块和人物肢体运动控制模块。文章还展示了X-Dyna的实验结果，并与其他方法进行对比。

关键观点总结

关键观点1: 机器之心AIxiv专栏介绍人像视频生成的研究进展。

该领域涵盖数字艺术、社交媒体和虚拟人等应用领域，受到广泛关注。

关键观点2: 人像视频生成面临的挑战包括动态细节生成、表情控制和背景静止等。

当前研究工作正在寻求解决这些问题的方法，如采用并行U-Net结构的扩散模型和参考网络等。

关键观点3: X-Dyna项目旨在解决这些问题并实现自然逼真的人像视频生成。

该项目包含三个主要部分，通过注意力模块、人脸控制模块和肢体运动控制模块等技术方案，实现了人物前景和背景的一同动态生成。文章还展示了X-Dyna的实验结果，并与其他方法进行对比。

正文

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

在当下的技术领域中，人像视频生成（Human-Video-Animation）作为一个备受瞩目的研究方向，正不断取得新的进展。 人像视频生成 (Human-Video-Animation) 是指从某人物的视频中获取肢体动作和面部表情序列，来驱动其他人物个体的参考图像来生成视频。

随着视频生成技术的迅猛发展，特别是生成模型的持续更新迭代，该领域迎来了前所未有的进步。鉴于其在数字艺术、社交媒体以及虚拟人等众多领域广泛的应用前景，人像视频生成吸引了越来越多研究人员的目光。

目前的研究工作普遍采用并行 U-Net 结构的 扩散模型 (Diffusion Model) 和额外的 参考网络 (ReferenceNet) 来编码参考图像特征。尽管生成的人像视频动作精准度相比于生成对抗网络 (GAN) 有所提高，但此类方法往往无法捕捉复杂的视觉动态细节，导致背景静止缺乏真实感。

这一缺陷来自于参考网络的并行 U-Net 结构设计包含了过强的控制模块，其空间注意力机制 (Spatial-Attention) 限制了模型的动态细节生成能力。

也有其他工作直接采用视频模型 (例如 Stable-Video-Diffusion) 作为骨干网络在真实的人像数据上训练，但是这类方法需要对骨干网络进行微调，因此缺少对其它类型的参考图像 (例如卡通人物) 的泛化能力。除此之外，实现精准的表情控制也是该领域研究的重点之一。

为有效解决这些问题，来自南加州大学、字节跳动、斯坦福大学、UCLA 和 UCSD 的研究团队提出了 X-Dyna ，让生成模型在 保持人物肢体动作和面部表情迁移准确性的前提下 ， 同时产生人物前景（例如头发和衣物的运动） 以及 自然背景（例如瀑布、烟火和海浪） ，以实现自然逼真的人像视频生成。

论文链接：https://arxiv.org/abs/2501.10021
项目网页：https://x-dyna.github.io/xdyna.github.io/
开源代码：https://github.com/bytedance/X-Dyna

话不多说，先来看看 X-Dyna 的效果：

这回，让照片动起来的时候终于不是人物在前面自嗨，背景在后面尴尬地当「静态壁纸」了，现在的画面，从主角到背景都能一起嗨起来。

技术方案

X-Dyna 是一个端到端的框架，它主要包含三个部分，分别是：

1）轻量跨视频帧的注意力模块 Dynamics-Adapter ，它将参考图像与噪声序列并行输入扩散模型的骨干网络，并通过自注意力机制 (Self-Attention) 把参考图像中的语义信息加入到去噪过程。

2）人脸局部控制模块 S-Face ControlNet ，它通过训练时对驱动视频进行人脸局部检测和换脸来分离人物的 ID 和面部表情，以此提升表情迁移的准确性。测试时无需换脸，驱动视频只需要进行人脸检测即可作为输入。

3）人物肢体运动控制模块 Pose ControlNet ，它使用人体骨架作为输入来实现动作迁移。

与 ReferenceNet 的结构设计不同之处是， Dynamics-Adapter 引入了极少的额外训练参数，它可以有效地将人物外观和自然背景上下文从参考图像注入到骨干网络，并且不会导致骨干网络丧失动态细节的生成能力。

与 IP-Adapter 结构相比，Dynamics-Adapter 能更好地保持输入图像的 ID 和人物外观。具体实现和动态细节生成效果如下图所示：

a) IP-Adapter 通过 CLIP 将参考图像编码，并将信息作为残差注入主干网络中的交叉注意力层。b) ReferenceNet 是一个可训练的并行 U-Net，他通过连接自注意力层特征将语义信息输入骨干网络。c) Dynamics-Adapter 使用部分共享权重的 U-Net 对参考图像进行编码，外观控制是通过在自注意力层中学习残差来实现，所有其他部分与骨干网络共享相同的冻结权重。

效果展示

与之前方法的对比