专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
目录
相关文章推荐
庞门正道  ·  灯,等灯等灯 ·  昨天  
庞门正道  ·  浪漫的四季! ·  2 天前  
JC万事通  ·  丹河新城一居民! 中了一等奖! ·  2 天前  
始室  ·  首发 . Paredes Design ... ·  2 天前  
字体设计  ·  3月数字如何设计创作? ·  3 天前  
51好读  ›  专栏  ›  江大白

字节又整活!SAM2与LLaVA结合,视频级别对话统一模型!

江大白  · 公众号  ·  · 2025-01-16 08:00

正文

以下 章来源于微信公众号:码科智能

作者:大模型日志

链接:https://mp.weixin.qq.com/s/eQg2gfOF__UcTZBwOXj6Ew

本文仅用于学术分享,如有侵权,请联系 台作删文处理

导读
Sa2VA模型通过结合SAM-2和LLaVA,将文本、图像和视频统一到共享的LLM标记空间中,能够在少量指令微调下执行多种任务,如图像/视频对话、指称分割和字幕生成。该模型在视频编辑和内容创作中展现出强大的性能,在相关基准任务中达到了SOTA水平。


Sa2VA:请将中心的人分割开来

Sa2VA 模型通过结合基础视频分割模型 SAM-2 和高级视觉语言模型 LLaVA,将文本、图像和视频统一到共享的 LLM 标记空间中。这种架构设计使得 Sa2VA 能够 在最少指令微调的情况下,执行多种任务,包括图像对话、视频对话、图像指称分割、视频指称分割 和基于单次指令调整的字幕生成。
Sa2VA 在多个实际应用中展示了其强大的性能和潜力,其能够与用户进行自然语言交互,理解和生成与图像和视频内容相关的对话;在复杂视频场景中, 准确分割用户指称的对象,因此非常适用于视频编辑、内容创作等场景 。Sa2VA 具备 Qwen2- VL 和 InternVL2.5 所缺乏的视觉提示理解和密集对象分割能力,并且在图像和视频基础和分割基准上都实现了 SOTA 性能。字节开源的项目及代码见下述链接:
项目链接:https://lxtgh.github.io/project/sa2va/论文链接:https://arxiv.org/pdf/2501.04001HuggingFace: https://huggingface.co/ByteDance/Sa2VA-4B

1、Sa2VA能力说明

Sa2VA,这是第一个用于对图像和视频进行密集基础理解的统一模型。基于 Qwen2-VL 和 InternVL2/2.5 构建的 Sa2VA 系列, 在问答基准上实现了与 Qwen2-VL 和 InternVL2.5 相当的性能。 使用 LLM,Sa2VA 生成指令标记,指导 SAM-2 生成精确的掩码,从而实现对静态和动态视觉内容的扎实、多模态理解

如上图所示:(a). 给定一个视频,Sa2VA 能够分割所指对象并理解整个场景。(b). Sa2VA 支持图像对话、视频对话、图像指称分割、视频指称分割以及通过单次指令调整实现的字幕生成。(c). 与现有的多模态大型语言模型相比,Sa2VA 在多幅图像、视频指称分割和聊天基准测试中取得了强劲的成绩。
提问:“视频里的人在做什么?”
答案:“视频中的这些人正在集体跳舞。他们正在表演编排好的舞蹈,动作同步。”
指示:“场景的气氛是什么样的?”
答案:“场景充满了黑暗而神秘的氛围,男人们穿着西装打着领带,房间灯光昏暗。”

模型架构:Sa2VA 模型通过将输入的文本、视觉提示、图像和视频编码为标记嵌入,然后通过大型语言模型 (LLM) 处理这些标记。输出的文本标记用于生成 [SEG] 标记和相关的语言输出。SAM-2 解码器从 SAM-2 编码器接收图像和视频特征以及 [SEG] 标记,以生成相应的图像和视频掩码。

这个对象是一台笔记本电脑。它最初放在桌子上的一个黑色包里,然后被一个穿着红色服装的人拿走,这个人坐在一个黑色的可旋转办公椅上。这个人把笔记本电脑放在桌子上,打开它,并通过在键盘上打字和使用触摸板与之互动。笔记本电脑一直放在桌子上,屏幕面向这个人。背景中有一个白板,表明这个场景可能是一个办公室或教室。

2、 Ref-SAM-V 数据集

为了提升 Sa2VA 模型的性能,引入了 Ref-SAV 数据集 。这是一个包含超过 72,000 条复杂视频场景中对象表达的自动标注数据集。这些数据涵盖了各种复杂的视频场景,提供了丰富的标注信息,有助于模型更好地理解和分割视频中的对象。

为了确保数据集的质量和可靠性,团队还手动验证了 Ref-SAV 数据集中的 2,000 个视频对象。这一验证过程确保了数据集中的标注信息准确无误,能够为模型训练提供高质量的基准数据。其中 提出的自动数据标注流程包含三个阶段:对象/部件级、场景级和视频级文本表达标注 。在最终的表达中,使用不同颜色来突出每个阶段派生的信息。
不同代表性模 型的能力对比。我们的方法支持多种任务和模态。得益于视频上的这些交互特性,Sa2VA 可以在视频中执行多个可提示的任务:
3、快速使用

Sa2VA 模型可在 HuggingFace 上使用。只需几个步骤,你就可以使用自己的数据尝试它。首先:在demo路径下安装依赖环境。

pip install -r demo/requirements.txt

其次:确保 PATH_TO_FOLDER 包含视频图像文件。

PATH_TO_FOLDER=/path/to/your/video/images







请到「今天看啥」查看全文