超越SAM-2！仅需一张参考图像，实现视频分割的任意颗粒度控制与时间一致性（附论文及源码）

江大白 · 公众号 · · 2024-11-21 08:00

正文

以下文章来源于微信公众号：码科智能

作者：大模型日志

链接：https://mp.weixin.qq.com/s/b2b6NxyaVpjGO8_pgL7KFA

本文仅用于学术分享，如有侵权，请联系后台作删文处理

导读

近日DeepMind 提出了SMITE 模型来精确分割视频中的对象，其通过少量参考图像实现时间一致性的视频对象分割，具备灵活的性能和强大的概括能力，即使在遮挡和光照变化下也能保持高效精准。

在视频理解领域，精确分割视频中的对象是一项挑战，要求每一帧的每个像素都准确标记且保持一致。面对任意粒度的分割，任务变得更加复杂，需要根据少量样本图像定义对象掩码。

Dee pmind 提出 SMITE 模型，用于实现时间一致性视频分割，旨在使用一张或几张参考图像预测和分割视频帧中的对象。SMITE 能够根据灵活的粒度跟踪和概括未见过的视频序列，即使在遮挡、姿势变化和光照条件下，也能确保分割的精确性和效率。

少张参考图像即可实现视频的细粒度分割

项目代码如下：

项目主页：https://segment-me-in-time.github.io/代码链接：https://github.com/alimohammadiamirhossein/smite/论文链接：https://arxiv.org/pdf/2410.18538

1. 具有挑战性结果的展示

SMITE 可以在伪装、遮挡和过场动画等具有挑战性的场景中进行分割。

SMITE 可以从粗段到细段，以多种粒度进行分割。

SMITE 的定性结果

2. SMITE数据集和基准

SMITE-50是一个视频数据集，专为涉及遮挡等困难场景中的多个物体部分的具有挑战性的分割任务而设计。它由 50 个视频组成，每个视频长达 20 秒，帧数从 24 到 400 不等，长宽比各不相同（垂直和水平）。

该数据集包括四个主要类别：“马”、“脸”、“汽车”和“非文本”。在户外拍摄的“马”和“汽车”类别的视频面临着遮挡、视点变化和动态背景中快速移动的物体等挑战，而“脸”涉及遮挡、尺度变化和难以跟踪和分割的细粒度部分。“非文本”类别包括无法使用自然语言描述的部分的视频，这对于依赖文本词汇的零样本视频分割模型来说具有挑战性。SMITE-50 的主要数据来源于 Pexels，具有多粒度注释，重点关注马匹、人脸和汽车，共包含 41 个视频。每个子集包括十个用于训练的分割参考图像和用于测试的密集注释视频，粒度从人眼到动物头部不等，适用于 VFX 等应用。此外，九个视频包含无法用文字描述的片段。该数据集包含密集注释，每五帧创建一个掩码，平均每帧六个部分，涵盖三种粒度类型。与具有 8% 密集注释的 PumaVOS 相比，SMITE-50提供了 20% 的密集注释。

3. 为什么选择 SMITE及方法概述 ？

SMITE 利用预先训练的扩散模型和一些参考图像进行分割，从而最大限度地减少数据集需求。它通过先进的跟踪和时间投票机制确保跨视频帧的一致分割。它提供各种粒度的灵活分割，使其成为需要不同细节级别的任务的理想选择。

此外，引入了一种时间投票机制（论文中的图），该机制跟踪并将像素投射到注意力图上，确保每个像素的标记一致。与逐帧分割技术相比，这种方法显著减少了闪烁和噪声，同时仍然遵循参考图像。

超越SAM-2！仅需一张参考图像，实现视频分割的任意颗粒度控制与时间一致性（附论文及源码）

正文

1. 具有挑战性结果的展示

2. SMITE数据集和基准

推荐阅读

江大白 | 这些年从0转行AI行业的一些感悟

请到「今天看啥」查看全文