正文
发布人:Google Research 软件工程师 Valentin Bazarevsky 和 Andrei Tkachenka
视频分割是一种广泛使用的技术,电影导演和视频内容创作者可以使用这种技术将场景的前景与背景分离,然后将它们作为两个不同的视觉层处理。通过修改或替换背景,创作者可以表达特定的情绪,将他们自己放在有趣的位置或强化消息的冲击力。不过,这个操作一直以来都是一个相当耗时的手动过程(例如,艺术家需要对每一帧进行
转描
),或者需要利用带绿幕的摄影棚环境来实时移除背景(这种技术称为
色差抠像
)。为了让用户能够在取景器中创造这种效果,我们设计了一种适合手机的新技术。
今天,我们高兴地为 YouTube 应用带来精确、实时的设备上移动视频分割,将这项技术集成到
短片故事
中。短片故事目前仍处于有限测试阶段,它是
YouTube 推出的一种新型轻量化视频格式,专门为 YouTube 创作者设计。我们的新分割技术让创作者可以替换和修改背景,无需专业设备即可轻松地提高视频的制作价值。
|
YouTube 短片故事中的神经网络视频分割。
|
为此,我们通过机器学习利用
卷积神经网络
来完成语义分割任务。特别是,在考虑以下要求和约束的基础上,我们设计了一个适合手机的网络架构和训练过程:
-
移动解决方案应当轻量化,并且运行速度至少要比现有的最先进照片分割模型快 10-30 倍。对于实时推理,此类模型需要达到每秒 30 帧的速度。
-
视频模型应利用时间冗余度(相邻的帧看起来相似)并具备时间一致性(相邻的帧得到相似的结果)。
-
优质的分割结果需要优质的标注。
数据集
我们标注了数以万计捕捉各种前景姿态和背景环境的图像,以便为我们的机器学习管道提供优质数据。标注包括头发、眼镜、脖子、皮肤和嘴唇等前景元素的准确像素位置,一般背景标签的交叉验证结果可以达到人类标注器质量 98% 的
交并比
(IOU)。
|
我们的数据集中一个使用九个标签仔细标注的示例图像 - 前景元素叠加到图像上。
|
网络输入
我们具体的分割任务是计算一个二进制蒙版,将视频每个输入帧(三个通道,
RGB
)的前景与背景分离。在所有帧中实现计算蒙版的时间一致性非常关键。目前的方法使用
LSTM
或
GRU
来实现一致性,但是对于手机上的实时应用来说,这些方法的计算开销过高。因此,我们首先将前一帧的计算蒙版作为先验知识,将它用作第四个通道与当前的 RGB 输入帧串联,以实现时间一致性,如下图所示:
|
原始帧(左侧)分成三个颜色通道,并与上一个蒙版(中间)串联。这将用作我们神经网络的输入来预测当前帧(右侧)的蒙版。
|
训练过程
在视频分割中,我们既需要实现帧间的时间连续性,同时还应考虑时间不连续性,例如其他人突然闯入相机视野。为了训练我们的模型可靠地处理这些用例,我们以多种方式转换每个照片的标注真实值并将它作为前一帧的蒙版: