专栏名称: 泡泡机器人SLAM

SLAM的最新资讯，干货内容。

【泡泡图灵智库】端到端Transformers视频实例分割

泡泡机器人SLAM · 公众号 · 机器人 · 2021-04-11 23:31

正文

泡泡图灵智库，带你精读机器人顶级会议文章

标题：End-to-End Video Instance Segmentation with Transformers

作者：Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, Huaxia Xia

机构：Meituan ，The University of Adelaide, Australia

来源：CVPR 2021

编译：万应才

审核: Yiru

这是泡泡图灵智库推送的第605篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是 Estimating Motion Codes from Demonstration End-to-End Video Instance Segmentation with TransformersVideos。

视频实例分割（VIS）是一项需要同时对视频中感兴趣的对象实例进行分类、分割和跟踪的任务。最近的方法通常开发复杂的框架来处理这个任务。在这里，我们提出了一个新的基于Transformers的视频实例分割框架VisTR，它将VIS任务看作一个直接的端到端并行序列解码/预测问题。给定一个由多个图像帧组成的视频片段作为输入，VisTR直接输出视频中每个实例的掩码序列。其核心是一种新的、有效的实例序列匹配与分割策略，它在序列级对实例进行整体监控和分割。VisTR从相似性学习的角度对实例进行分割和跟踪，大大简化了整个流程，与现有方法有很大的不同。

VisTR在现有的VIS模型中速度最高，在YouTubeVIS数据集上使用单一模型的方法中效果最好。这是第一次，我们展示了一个更简单，更快的视频实例分割框架建立在 Transformers，实现了竞争的准确性。我们希望VisTR能推动未来更多的视频理解任务的研究。

Code : https://git.io/VisTR

图1 VisTR 整体框架.该模型以一系列图像作为输入，输出一系列实例预测。在这里，相同的形状表示一个图像中的预测，相同的颜色表示同一对象实例的预测。请注意，总体预测遵循输入帧顺序，不同图像的对象预测顺序保持相同（最好在屏幕上查看）

主要工作与贡献

将Transformers网络引入实例分割过程中需要解决

1.如何保持输出顺序

2.如何从Transformers网络中获取每个实例的掩码序列。

本文主要贡献：

1.我们提出了一个新的基于Transformers的视频实例分割框架VisTR，它将VIS任务看作一个直接的端到端并行序列解码/预测问题。该框架与现有方法有很大不同，大大简化了整个框架。

2.VisTR从相似性学习的新角度解决了VIS问题。实例分割就是学习像素级的相似度，实例跟踪就是学习实例之间的相似度。因此，在相同的实例分割框架下，可以无缝、自然地实现实例跟踪

3.VisTR成功的关键是为我们的框架定制了一种新的实例序列匹配和分割策略。这种精心设计的策略使我们能够在整个序列级别上对实例进行监控和分段。

4.VisTR在YouTube-VIS数据集上取得了很好的效果，在mask-mAP中以57.7 FPS的速度实现了38.6%，这是使用单一模型的方法中最好、最快的。

算法流程

1.整体框架

我们将视频实例分割问题建模为一个直接的序列预测问题。给定由多个图像帧组成的视频片段作为输入，VisTR按顺序输出视频中每个实例的掩码序列。为了实现这一目标，我们引入了实例序列匹配和分割策略，在序列级对实例进行整体监督和分割。

图2它包含四个主要组件：1）CNN主干，用于提取多幅图像的特征表示；2）编码器-解码器转换器，用于建立像素级特征之间的关系并对实例级特征进行解码；3）实例序列匹配模块，用于管理模型；4）实例序列分割模块输出最终的掩模序列

2.VisTR组成

Backbone

主干提取输入视频片段的原始像素级特征序列。首先，一个标准的CNN主干为每一帧生成一个低分辨率的激活图，然后将每一帧的特征连接起来形成剪辑级特征图

Transformer encoder

利用变压器编码器对剪辑中所有像素级特征的相似性进行建模。首先，将1×1卷积应用于上述特征图，将维从C降为d（d

Temporal and spatial positional encoding

Transformer结构是排列不变的，而分割任务需要精确的位置信息。为了弥补这一点，我们用包含剪辑中三维（时间、水平和垂直）位置信息的固定位置编码信息来补充特征。这里我们调整了原始Transformer中的位置编码，以适应我们的3D案例。具体而言，对于每个尺寸的坐标，我们独立使用不同频率的d/3正弦和余弦函数：

Transformer decod

Transformer解码器的目标是解码能够代表每帧实例的顶级像素特征，称为实例级特征。受DETR的启发，我们还引入了固定数量的输入嵌入来从像素特征中查询实例特征，称为实例查询。假设模型每帧解码n个实例，那么对于T帧，实例查询数为n=n·T，实例查询由模型学习，与像素特征维数相同。将编码器E和N实例查询Q的输出作为输入，转换器解码器输出N实例特征，在图2中用O表示。总体预测遵循输入帧顺序，不同图像的实例预测顺序相同。因此，可以通过直接链接相应索引项来实现对不同帧中实例的跟踪

2. Instance Sequence Matching

当VisTR每帧解码n个实例时，实例序列的数目也是n。让我们用yˆ={yˆi}(n/i=1)表示预测实例序列，y表示实例序列的基本真值集。假设n大于视频片段中的实例数，我们也将y视为一组大小为n的填充有∅的集合。为了在两个集合之间找到一个二部图匹配，我们搜索具有最低cos的n个元素σ∈Sn的排列

loss

3.实例分割

实例序列分割模块的目标是预测每个实例的掩码序列。为了实现这一点，该模型首先对每个实例进行多帧掩模特征的积累，然后对积累的特征进行掩模序列分割。

通过计算对象预测O和变换器编码特征E之间的相似度映射得到掩模特征。为了简化计算，我们只对每个对象预测使用其对应帧的特征进行计算。对于每一帧，对象预测O和相应的编码特征映射E被馈送到自注意模块以获得初始注意映射。然后注意图将与对应帧的初始主干特征B和变换后的编码特征E融合，遵循与DETR类似的实践。融合的最后一层是可变形卷积层。通过这种方式，获得不同帧的每个实例的掩码特征

实验结果

本实验的主要目的是使TALOS机器人以类似人类的方式走向桌子。

在4次实验中，机器人距离目标位置x方向0.065米，y方向0.205米，角度-0.028弧度。我们将轨迹容rviz进行展示如下：

图3 Ablation experiments for VisTR所有模型在YouTubeVIS train上训练10个epochs，并使用ResNet-50主干在YouTubeVIS val上测试

图4YouTube VIS验证数据集上的视频实例分割AP（%）

图5 VisTR 在 YouTube-VIS 可视化

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

点击阅读原文，即可获取本文下载链接。

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/bbs/

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成，希望大家珍惜我们的劳动成果，转载请务必注明出自【泡泡机器人SLAM】微信公众号，否则侵权必究！同时，我们也欢迎各位转载到自己的朋友圈，让更多的人能进入到SLAM这个领域中，让我们共同为推进中国的SLAM事业而努力！

商业合作及转载请联系[email protected]