©作者 | 王耀霆
单位 | 中国人民大学
来源 | 量子位
让 AI 像人类一样借助多模态线索定位感兴趣的物体,有新招了!来自人大高瓴 GeWu-Lab、北邮、上海 AI Lab 等机构的研究人员提出 Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下的指代分割),让 AI 能看、会听,更懂真实物理世界。相关论文已入选顶会 ECCV 2024。
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes论文链接:
https://arxiv.org/abs/2407.10957代码链接:
https://gewu-lab.github.io/Ref-AVS/
举个例子,在下面这张图中,机器如何准确定位真正在演奏乐器的人?
搞单打独斗肯定不行,但这正是已有研究正在做的(各自从视觉、文本和音频线索的角度出发):
而新方法 Ref-AVS,整合了多个模态(文本,音频和视觉)之间的关系来适应更真实的动态视听场景。这下,同时在唱歌和弹吉他的人也能被轻松找到了。
且同一段素材还能拿来反复用,找出正在发声的吉他也不在话下。
与此同时,研究人员构建了一个名为 Ref-AVS Bench 的数据集,并设计了一个端到端框架来高效处理多模态线索。具体详见下文。
概括而言,数据集 Ref-AVS Bench 共有 40020 个视频帧,包含 6888 个物体和 20261 个指代表达式(Reference Expression)。每个数据都包含与视频帧对应的音频,并提供逐帧的像素级标注。为了确保所指代对象(Object)的多样性,团队选择了包含背景的 52 个类别, 其中 48 个类别的可发声物体,以及 3 个类别的静态、不可发声物体。
在视频收集过程中,所有视频均来自油管并截取 10 秒。在整个手动收集过程中,团队刻意避免以下情况的视频:a) 包含大量相同语义实例的视频;b) 有大量编辑和相机视角切换的视频;c) 包含合成创作的非现实视频。同时,为了提高与真实世界分布的一致性,团队挑选了有助于数据集内场景多样化的视频。 比如涉及多个对象(如乐器、人、车辆等)之间交互的视频。
另外,表达式(Expression)的多样性是 Ref-AVS 数据集构建的核心要素之一。除去本身固有的文本语义信息,表达式还由听觉、视觉和时间三个维度的信息组成。听觉维度包含音量、节奏等特征,而视觉维度则包含物体的外观和空间等属性。
团队还利用时间线索来生成具有时序提示的引用,例如“先发出声音的(物体)”或“后出现的(物体)”。通过整合听觉、视觉和时间信息,研究设计出丰富的表达式,不仅可以准确反映多模态场景,还可以满足用户对精确引用的特定需求。
而且,表达式的准确性也是一个核心关注点。研究遵循三个规则来生成高质量的表达式:
1)唯一性:一个表达式所指代的对象必须是唯一的,不能同时指代多个对象。
2)必要性:可以使用复杂的表达式来指代对象,但句子中的每个形容词都应该缩小目标对象的范围,避免对所要指代的对象进行不必要和冗余的描述。
3)清晰度:某些表达模板涉及主观因素,例如“声音更大的__”。只有在情况足够清晰时才应使用此类表达,以避免产生歧义。 团队将每段 10 秒的视频分成十个相等的 1 秒片段,利用 Grounding SAM 来分割和标记关键帧,随后要求标注员手动检查和更正这些关键帧。此过程使团队能够在关键帧内为多个目标对象生成掩码和标签。一旦确定了关键帧的掩码,研究就会应用跟踪算法来跟踪目标对象,并在 10s 的跨度内获得目标对象的最终掩码标签 (Ground Truth Mask)。
到了数据分割与统计,测试集中的视频及其对应的注释会经过训练过的标注人员的细致审查和校正。为了全面评估模型在 Ref-AVS 任务中的表现,测试集进一步被划分为三个不同的子集。
完成了数据集准备后,团队利用多模态线索来增强表达式指代能力(Expression Enhancing with Multimodal Cues, EEMC),以实现更好的视听指代分割。
具体而言,在时序双模态融合(Temporal Bi-Modal Transformer)模块中,团队将包含时序信息的视听模态信息(FV, FA)分别与文本信息 FT 进行融合。
注意, 为了让模型更好的感知时序信息,研究提出了一种直观的 Cached memory 机制(CV,CA )。
Cached memory 需要存储从开始到当前时刻的时序平均模态特征,以捕捉时序变化中多模态信息的变化幅度。多模态特征(QV, QA)计算方式如下:
其中,𝓣 表示时序中的特定时间步,𝜷 则是一个可调节的超参数用于控制时序过程中模型对特征时序变化的敏感度。当此刻的音频或视觉特征与过去特征的均值相比变化不大时,输出的特征保持几乎不变。 然而,当变化较为明显时,cached memory 可以放大当前特征的差异,从而产生具有显著特征的输出。此后,拼接的多模态特征被送入 Multimodal Integration Transformer 模块中进行多模态融合,产生包含多模态信息的指代表达式的最终特征(QM)作为掩码解码器的输入。 掩码解码器是一个 Transformer 架构的分割基础模型如 MaskFormer,Mask2Former 或者 SAM。团队选择 Mask2Former 作为分割基础模型,将其预训练的 mask queries 作为 𝙦,将多模态指代表达式特征作为 𝒌 和 𝒗 。经过一个 cross-attention transformer(CATF)将多模态指代表达式特征迁移到 mask queries 中,从而实现让分割基础模型根据多模态特征进行分割。
在定量实验中,团队将研究提出的基线方法与其它方法进行对比,且为了公平补充了其他方法缺失的模态信息。在 Seen 子集上的测试结果显示,新方法 Ref-AVS 超越了其它方法的性能。同时在 Unseen 子集和 Null 子集上,Ref-AVS 展示了可泛化性,并且可以准确地跟随指代表达。
在定性实验中, 团队在 Ref-AVS Bench 测试集上对分割掩码进行可视化,并与 AVSegFormer 和 ReferFormer 进行比较。
结果显示,ReferFormer 在 Ref-VOS 任务中的表现以及 AVSegFormer 在 AVS 任务中的表现都未能准确分割出表达中描述的对象。具体来说,AVSegFormer 在理解表达时遇到困难,往往直接生成声音源。例如,在左下角的样本中,AVSegFormer 错误地将吸尘器分割为目标,而不是男孩。另一方面,Ref-VOS 可能无法充分理解音频-视觉场景,因此误将幼童识别为钢琴演奏者,如右上角的样本所示。相比之下,Ref-AVS 方法展现了更出色的能力,能够同时处理多模态表达和场景,从而准确地理解用户指令并分割出目标对象。未来,可以考虑更优质的多模态融合技术、模型应用的实时性以及数据集的扩展与多样化,以将多模态指代分割应用到视频分析、医疗图像处理、自动驾驶和机器人导航等挑战中。更多详情欢迎查阅原论文。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧