专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

2倍加速！Meta重磅开源EfficientTAM：高效「跟踪一切」！

3D视觉工坊 · 公众号 · · 2024-12-03 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Efficient Track Anything

作者：Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra

机构：Meta AI、Nanyang Technological University

原文链接：https://arxiv.org/abs/2411.18933

代码链接：https://github.com/yformer/EfficientTAM

1. 导读

分割一切模型2 (SAM 2)已经成为视频对象分割和跟踪任何东西的强大工具。SAM 2的关键组件推动了令人印象深刻的视频对象分割性能，包括用于帧特征提取的大型多级图像编码器和存储过去帧的内存上下文以帮助当前帧分割的内存机制。多级图像编码器和存储模块的高计算复杂度限制了其在现实任务中的应用，例如移动设备上的视频对象分割。为了解决这一限制，我们提出了高效、轻量级跟踪任何模型，这些模型以低延迟和模型大小产生高质量的结果。我们的想法是基于重新使用普通的非分层视觉转换器(ViT)作为视频对象分割的图像编码器，并引入有效的存储模块，这降低了当前帧分割的帧特征提取和存储计算的复杂性。我们采用普通的轻量级ViTs和高效的内存模块来构建高效的模型，并在SA-1B和SA-V数据集上训练模型，用于视频对象分割和跟踪任何任务。我们在多个视频分割基准上进行评估，包括半监督VOS和可提示视频分割，并发现我们提出的带有vanilla ViT的高效TAM与SAM 2模型(HieraB+SAM 2)的性能相当，在A100上加速约2倍，参数减少约2.4倍。在分割任何图像任务上，我们的EfficientTAMs也优于原始SAM，在A100上加速了约20倍，参数减少了约20倍。在iPhone 15 Pro Max等移动设备上，我们的EfficientTAMs可以以约10 FPS的速度运行，以合理的质量执行视频对象分割，突出了小型设备对设备上视频对象分割应用的能力。

2. 引言

分段任意模型2（SAM 2）是统一图像和视频对象分割的基础模型，在各种分割任务中取得了最先进的性能，这些任务包括零样本图像分割、半监督视频对象分割。SAM 2使用多级图像编码器来提取层次帧特征，并引入了一个内存模块，用于对当前帧特征和来自观察帧的存储记忆进行跨注意力处理，以实现跨帧的一致对象分割和视频中的交互式跟踪。

尽管具有这些优势，但SAM 2在移动端部署方面并不高效，特别是因为其大型图像编码器（如HieraB+）和内存模块的成本高昂。SAM 2的默认图像编码器HieraB+在参数方面效率不高，例如，约有8000万个参数。尽管SAM 2提供了一个小型版本，但由于其层次图像编码器，其运行速度为每秒43.8帧，与默认SAM 2模型的每秒47.2帧相比相差不多。此外，内存标记（例如，空间内存标记和对象指针标记的连接）很长，例如，约有3万个，这影响了内存模块在跨注意力处理方面的效率。

在本文中，我们重新审视了用于视频对象分割和跟踪任何目标的简单非层次图像编码器。我们提出使用轻量级基础ViT图像编码器（例如，ViT-Tiny/-Small），如EfficientSAMs所做，以降低SAM 2的复杂性，同时保持不错的性能。此外，我们还提出了一种高效的跨注意力方法，以加速内存模块。这是通过利用内存空间标记的潜在结构来实现的。我们观察到，内存空间标记具有很强的局部性，并且内存空间标记的更粗略表示可以作为执行跨注意力的良好代理。我们证明了这是原始内存模块的一个良好替代方案。

为了评估我们的方法，我们在视频和图像分割基准测试上进行了大量实验，包括用于视频分割的MOSE、DAVIS、LVOS和SA-V，以及用于图像分割的SA-23。我们的EfficientTAM在保持更高效的同时，优于强大的半监督视频对象分割方法，如Cutie-base、XMem和DEVA。与SAM 2相比，我们的EfficientTAM在SA-V测试数据集上的表现相当（例如，74.5% vs 74.7%），但帧率降低了约一半。在图像分割基准测试SA-23上，我们的EfficientTAM在零样本图像分割方面实现了60.7%的准确率，而SAM的准确率为59.1%，SAM 2的准确率为61.9%。我们还在iPhone 15 Pro Max上对EfficientTAM模型进行了基准测试，该模型在合理的视频分割性能下，每秒可以运行约10帧。

3. 效果展示

对比分析。(左)EfficientTAM和SAM 2在单个NVIDIA A100 GPU上的速度比较。虽然SAM 2在设备上部署具有挑战性，但我们的EfficientTAM可以在iPhone 15 Pro Max上每帧运行261毫秒。(右)EfficientTAM、SAM 2和其他用于零镜头视频对象分割的高效模型在SA-V测试上的FPS/参数/性能比较。我们在单个NVIDIA A100上以1024 × 1024输入分辨率对所有型号的FPS(每秒帧数)进行了基准测试。

4. 主要贡献

我们的主要贡献可以概括如下：

• 我们重新审视了使用简单非层次图像编码器ViT-Tiny/-Small进行视频对象分割，并表明，与具有层次图像编码器的SAM 2相比，基础ViT可以实现竞争性的性能。

• 我们通过利用潜在的内存空间标记结构，提出了一种高效的内存跨注意力方法，并证明了其优越的性能。推荐课程：扩散模型入门教程：数学原理、方法与应用。

• 我们提供了EfficientTAM，这是一种轻量级视频对象分割和跟踪任何目标的模型，具有最先进的质效权衡，是对SAM 2在实际部署方面的补充。

5. 方法

我们现在解决SAM 2在构建高效视频对象分割和跟踪任何目标模型EfficientTAM时的效率问题。受SAM和EfficientSAM高质量分割性能的启发，我们重新审视了使用简单非层次轻量级图像编码器（如ViT-Small/ViT-Tiny）进行帧特征提取。我们发现，使用基础ViT进行帧特征提取使EfficientTAM在移动设备上具有高度的效率和可部署性。此外，我们还引入了一个高效的内存模块，通过提出一种高效的跨注意力操作来降低计算和内存成本。基于这两个设计，我们在很大程度上遵循SAM2，构建了高效的视频对象分割和跟踪任何目标的模型。图2展示了我们提出的EfficientTAM的概述。

6. 实验结果

标准半监督视频对象分割。半监督视频对象分割是基于视频第一帧的真实掩码对视频中的对象进行分割和跟踪的过程。我们遵循SAM 2的方法，并在这一标准的半监督视频对象分割任务上报告了我们方法的准确性。我们还报告了在单个A100 GPU上（批量大小为1）的延迟。我们使用不同的图像编码器（ViT-Tiny和ViT-Small）和内存模块（原始内存块和具有2×2窗口池化的高效内存块）对EfficientTAM进行了评估，以在效率和准确性之间取得平衡。EfficientTAM-S表示使用ViT-Small图像编码器和原始内存块的EfficientTAM，而EfficientTAM-S/2表示使用ViT-Small图像编码器和具有2×2窗口池化的高效内存块的EfficientTAM。表1将我们的EfficientTAM与视频对象分割基线进行了比较，包括SAM 2、Cutie-base和XMem。在SA-V测试集上，我们的EfficientTAM-S实现了74.5的J&F分数，分别比Cutie-base、Cutie-base+和XMem高出12.2、12.9和14.4。在长期视频对象分割基准测试集LVOS上，我们也可以看到，我们的EfficientTAM-S大幅优于Cutie-base和XMem。值得注意的是，我们的EfficientTAM-S在5个视频基准测试集上的表现仅略逊于SAM 2，差距小于2 J&F或G，但速度提升了约2倍，参数减少了约2.4倍。此外，使用高效内存注意力的EfficientTAM表现略逊于使用原始内存注意力的EfficientTAM，但速度提升显著，尤其是在移动设备上，iPhone 15上的延迟减少了2倍以上。例如，EfficientSAM-S在SA-V测试集上实现了74.5的J&F分数，在iPhone 15上每帧的运行时间为1010.8毫秒。而使用高效跨内存注意力的EfficientSAM-S/2实现了74.0的J&F分数，每帧的运行时间仅为450毫秒。这些结果表明，EfficientTAM在半监督视频对象分割方面表现出色，验证了我们的方法在实际部署中的优势。

可提示视频分割。与SAM 2类似，我们使用两种设置评估了可提示视频分割，即离线评估和在线评估。对于离线评估，我们多次遍历视频，以标注相对于最大模型误差的帧。对于在线评估，我们仅遍历一次视频以标注帧。在包括EndoVis、ESD、LVOSv2、LV-VIS、UVO、VOST、PUMaVOS、Virtual KITTI 2和VIPSeg在内的9个密集标注的视频数据集上进行了评估，每帧使用3次点击。报告了1到8次交互帧的平均J&F准确性。图4展示了我们的方法与包括SAM 2、SAM + XMem++和SAM + Cutie在内的强大基线之间的比较。EfficientTAM在两种评估设置中均优于SAM + XMem++和SAM + Cutie。EfficientTAM还缩小了SAM 2在离线评估和在线评估设置中的差距。具体而言，在离线评估设置中，使用3次点击标注8帧的情况下，EfficientTAM-S和EfficientTAM-S/2的平均J&F分数约为82，在线评估设置中的平均J&F分数约为81，优于SAM + XMem++和SAM + Cutie（高出3 J&F以上），并缩小了与SAM 2的差距。这一系列实验进一步验证了我们的EfficientTAM在可提示视频分割中的有效性。

7. 总结

我们重新审视了使用简单的非层次图像编码器来构建高效的视频对象分割和跟踪任何目标模型EfficientTAM。使用普通的轻量级ViT图像编码器，EfficientTAM展示了与层次图像编码器相当的图像和视频分割能力，同时在移动设备上更加高效且易于部署。我们还提出了一种具有更快交叉注意力的高效内存模块，利用空间内存嵌入的局部性。高效内存模块进一步改善了EfficientTAM在视频分割和跟踪任何目标方面的准确性与效率的权衡。在半监督视频对象分割、可提示视频分割和分割任何任务上的大量实验一致地验证了EfficientTAM的优势。我们的初步工作表明，EfficientTAM在设备上跟踪任何目标方面具有许多潜在应用。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。