专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
51好读  ›  专栏  ›  极市平台

顶刊TPAMI 2024!NVDS+:更快更强更通用的视频深度估计框架

极市平台  · 公众号  ·  · 2024-10-06 21:00

正文

↑ 点击 蓝字 关注极市平台
作者丨CVer粉丝投稿
来源丨CVer
编辑丨极市平台

极市导读

本文 提出了NVDS+框架,这是一个用于视频深度估计的快速、强大且通用的扩展版本,包括一个即插即用的视频深度框架、一个新的大规模视频深度数据集VDW,以及一个完整的模型家族,从轻量级的NVDS-Small到性能更优的NVDS-Large模型。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

本文介绍我们发表在顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 的论文《NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation》。NVDS+以我们发表在ICCV 2023的 NVDS为基础,做了进一步的创新与改进,形成了扩展版本的NVDS+,并已经被IEEE TPAMI 2024接收。本文主要介绍在ICCV 2023 NVDS的基础上,期刊版本的NVDS+包含的扩展内容。

论文: https://arxiv.org/pdf/2307.08695

代码: github.com/RaymondWang987/NVDS

视频:

https://www.bilibili.com/video/BV1WhxdenEga/?vd_source=806e94b96ef6755e55a2da

贡献总结

文章的主要贡献包括:(1) 针对任意单图深度预测模型,即插即用的视频深度框架NVDS+;(2) 为训练更鲁棒的视频深度模型,提出了当前该领域最大的视频深度数据集VDW,包含超过200万的视频帧;(3) 构建了完整的model family,从轻量化的可实时预测的NVDS-Small模型,到性能最优的NVDS-Large模型;(4) 在视频语义分割等其他任务上,也实现了SOTA的空间精度和时域稳定性,并在点云重建、视频散景、新视图生成等下游任务上,证明了算法的通用性和应用价值;(5) 设计了flow-guided consistency fusion策略,改进了NVDS中简单的双向预测模式,进一步提升预测结果的稳定性和一致性。

如Fig. 1所示,无论是NVDS+的Small或Large版本,我们相比于前序方法均实现了最优的效率和性能。其中Small版本能够实现超过30fps的实时处理,flow-guided consistency fusion相比于ICCV版本的简单双向预测能进一步提升一致性。我们的方法也适用于视频语义分割等稠密预测任务,在单图预测结果的基础上,即插即用地产生稳定的视频结果。

1 轻量化实时小模型和model family

针对不同类型的下游应用,为了平衡推理效率和模型性能,我们提供了一个综合完整的NVDS+ model family,模型体量从小到大。具体来讲,NVDS+ 的应用范式可以分为两方面。第一,为了追求空间精度和时间一致性的最佳性能,我们的Large模型可以采用各种高精度的单图深度大模型作为Depth Predictor。另一方面,为了满足实时处理和应用的需求,NVDS-Small可以与不同的轻量级单图深度预测器协同工作。

为了实现轻量的Small model,我们采用了基于注意力的轻量主干网络Mit-b0来编码深度感知特征。同时,小模型的注意力层数和特征嵌入维度均被缩减。此外,我们还应用了最新的模型剪枝策略以进一步提高效率。如实验结果所示,我们的小模型实现了超过 30 fps的处理速度 (Table 7),并在性能上也显著超越了已有的轻量深度模型 (Table 7 & Fig. 9)。

2 视频稠密预测中的通用性

作为稠密预测中的两个典型任务,深度预测和语义分割对于自动驾驶和虚拟现实等下游应用都至关重要。为了证明 NVDS+框架在视频稠密预测中的通用性,我们将NVDS+扩展至视频语义分割。与视频深度相似,视频语义分割旨在为视频帧预测准确且一致的语义标签。自然而然地,我们可以使用不同的单图语义分割模型作为Semantic Segmenter来产生初始单图预测。然后,通过即插即用的范式,NVDS+可以去除抖动并提高一致性。我们的 NVDS+在 CityScapes数据集上达到了视频语义分割任务的SOTA性能,超越了前序独立的视频语义分割模型,进一步证明了NVDS+框架的通用性和有效性。

具体来讲,在一个滑动窗口内,RGB 帧与Semantic Segmenter的单通道标签预测Q 拼接在一起,作为我们Stabilization network的输入。归一化操作被省略,因为不同分割器的标签预测 Q 具有统一的数据范围和格式。网络的输出则被调整为C 个通道,表征各个语义类别的概率。我们使用了常规的的语义解码器结构来输出结果,并使用交叉熵损失进行监督。NVDS+使用单通道的标签预测Q而非概率预测P作为初始输入,这主要有两个原因。首先,P的通道数C 等于语义类别的数量,而在实际中这个数量可能很大,将 P 作为多帧输入会显著增加计算代价。此外,不同数据集和场景中的通道数C也有所不同,输入通道的变化会限制模型设计的统一性。

最终,分割部分的实验结果如下所示,NVDS+在视频语义分割任务上也实现了SOTA的精度和一致性 (Table 8 & Fig. 10),并且也能够即插即用地适配不同的单图分割模型 (Table 9),例如SegFormer和OneFormer等。

3 基于光流引导的一致性融合

ICCV23当中NVDS的双向推理策略可以基于前向和后向预测增强时间一致性,其采用的直接平均是一种简单而有效的方法,本质上是使用固定权重将前向和后向深度融合,这扩大了时间感受野范围,并且不会引入过多的计算成本。然而,与直接平均相比,使用自适应权重来融合参考帧和目标帧的双向结果更为合理,因为相对于目标帧,存在较大运动幅度的帧或像素可能与最终的目标深度相关性较低。

为此,我们改进了双向推理,提出了一种基于光流引导的一致性融合策略,该策略能够自适应地融合来自参考帧和目标帧的双向深度结果。如Fig. 3所示,我们利用光流来表征参考帧和目标帧之间像素级的运动幅度和相关性图。双向光流在参考帧和目标帧之间计算。运动幅度则可以通过光流的幅度 (即 Frobenius 范数)来估计。参考帧中运动较大的像素与目标帧中对应像素的相关性通常更低。为了量化这一点,我们逐像素地计算自适应的相关性图和权重矩阵 (Fig. 4),用来自适应地融合多帧双向的深度预测结果。

Table 5的实验结果也表明,相比于简单的双向预测,光流引导的一致性融合策略能够进一步提升模型输出结果的时域一致性和稳定性。

整体实验结果与下游应用

整体来讲,如Table 2所示,NVDS+在多个数据集上均实现了SOTA的性能,并且能够促进多种下游应用的效果。

如Fig. 12和Fig. 14所示,我们将NVDS+的深度结果应用于三维重建、视频散景渲染、三维视频合成、时空新视图生成等下游任务,均能够取得令人满意的效果。以三维点云重建为例,相比于之前的Robust-CVD,NVDS+产生的深度图能够恢复出更完整的物体结构和更正确的几何关系,这些结果都证明了我们方法的应用价值。

公众号后台回复“ 数据集







请到「今天看啥」查看全文