黄锴宇 投稿至 凹非寺
量子位 | 公众号 QbitAI
一个眼神锁定你!多模态视觉定位能力升级——
由单张图像拓展至多图像应用场景。
比如,在复杂的相册中自动识别出Luigi并在第二张图中找到他,或是根据钢铁侠剧照自动在合影中找到对应的演员唐尼。
Q:Image-1 is the photo album of someone in Image-2, please find and locate this person.
回答:(371,146),(695,812)
又或者根据第一张图,找到第二张图同型号黑色款的车。
Q:Where did I park my car? It is the same type shown in the first image, except it is black in color.
结果它依旧回答出来了。
The car you parked is located at the entrance of the parking garage at (500,575),(650,735).
还能挖掘不同图像之间的联系,实现精准定位。
来自清华NLP孙茂松团队、北京交通大学、华中科大联合提出了多模态视觉定位新范式——
Migician,作为第一个支持任意形式多图定位(Multi-image Grounding,MIG)的多模态模型,为此还设计了一个大规模训练数据集MGrounding-630k。
多模态Grounding新范式
多模态大模型(typo Multimodal Large Language Model)的视觉定位(Visual Grounding)任务通过接受任意形式的自然语言描述作为查询,能够在图像中精准定位目标物体。
当前的Grounding任务主要关注于单张图像,只能对单张图像进行目标物体的检测与定位,这极大的限制了Grounding任务在现实生活场景中的任务。
以
具身智能场景
为例,机器人需要融合多视角图像信息进行物体识别定位以完成抓取动作;或者今天我想找我的车停哪了,这时我或许就需要一张我自己车辆的照片作为输入查询,在停车场的多张监控影像中进行查找与定位;
为此,THUNLP团队联合北交大、华中科大提出
多图视觉定位新范式
,通过构建包含数十种任务的系统性框架,将视觉定位能力拓展至多图像应用场景。
随着输入图像数目的增加,相应的视觉信息激增,丰富的语义信息和图像内容天然地孕育了多样化的Grounding形式和可能性。
按照是否需要明确指代目标物体,研究团队将多图定位任务分为Spontaneous Grounding和Referential Grounding两种:
前者依托不同图像中天然潜在的联系(如图像中变化了的物体或者图像中相同的物体),让模型自动识别并准确定位;
后者得益于多张图像带来的形式上的扩展和语义信息上的丰富,可以支持不同形式的指代描述,如Visual Reference,Textual Reference或者融合两种模态信息进行定位。
值得注意的是,研究团队提出的多图视觉定位潜在地为许多任务提供了一种通用范式,如Object Tracking, Vehicle Reidentification, Person Reidentification, Partial Graph Matching等等任务,都可以放在MLLM统一的框架中进行端到端的解决。此外,这种多图形式内在地支持各种类型的图像,可以避免此前一些专门用于处理图像查询(Image Query)的冗余视觉模块设计,如VisionLLM v2, Griffon v2等,为MLLM提供一个更通用和更统一的架构。
CoT推理框架
考虑到当前的主流多模态大模型尚未具备多图定位的能力,但是它们的通用感知与理解能力持续发展,展现出了对于长序列场景越来越强的理解能力,如多图和长视频,且自身通常已经具备不错的单图Grounding能力。
于是,研究团队首先讨论了当前模型能否充分调用其已具备的单图定位能力和多图通用理解能力,以CoT(Chain-of-Thought)的多步推理方式逐步解决此问题。
具体的,原本的多图Grounding任务可被拆解为以下两步:
Step1 多图理解
:输入为多张图像,模型综合分析所有图像,得出目标物体的文本指代描述,如上图(c)中,“上方有粉色花朵的木桶”。
Step2 单图定位
:以轮询的方式输入单张图像,模型利用上一步得出的结论以及自身的单图定位能力在这些单张图像上进行视觉定位。
实验结果表明,这种分步推理的方式确实具有一定的有效性,但是局限性仍旧存在:
当视觉信息过于抽象或者复杂时,文本描述难以充分反映该图像内容的全貌,如上图中(c),原图中有多个符合条件的木桶,简单的指代:“上方有粉色花朵的木桶”不足以充分地指定目标物体。
当推理过程过于复杂,在各个推理步上的出错概率也会相应增加,最终造成整个框架表现的方差较高,且总推理时长大幅增加。
下图中更多例子进一步展现了这种CoT架构的局限性,充分体现出了一个端到端(end-to-end)解决方案的必要性。
模型训练与数据构建
针对于MLLM多图定位能力的缺陷和CoT框架的局限性,研究团队提出了
Migician
,作为第一个支持任意形式多图定位(Multi-image Grounding,MIG)的多模态模型。
为了打造一个强大的多图视觉定位模型,研究团队设计了一个大规模训练数据集
MGrounding-630k
,包含了从现有数据集中整合改造的数据和利用模型与人工构建的高质量指令微调数据。
利用这个数据集,旨在打造一个全面的,能支持丰富任务形式的MIG任务的模型。
借助于该数据,研究团队基于Qwen2-VL-7B,采用了两阶段的训练方式:
第一阶段:主要采用从现有数据集中改造和设计的数据,并混入了多图理解数据、单图理解数据和单图定位训练数据。该阶段旨在从零构建模型的多图定位能力。
第二阶段:主要采用高质量的MIG指令微调数据,并混入第一阶段四种类型的数据以防止模型遗忘。该阶段旨在进一步精细化模型的MIG能力,增强其灵活性与泛化性。
同时,为了客观评估模型的MIG能力,研究团队还推出了一个新的评估基准:MIG-Bench,包含10种不同任务,包含了来自人工收集的,手动拍摄的和从现有数据中改造的不同图像,共包含4000+的测试样例和近6000张图像。
该评估基准经过精心的人工设计,校验与筛选,充分保证了其问题正确性与整体的质量。
实验结果
在最终的结果上,该两阶段的训练方式和提出的MGrounding-630k数据对模型MIG能力的提升十分有效,在所有十个任务上大幅超越同规模模型以及70B规模的模型。
此外,不论是在多图理解的评估基准还是单图的能力评测上,模型都表现出了出色的通用能力。
在多图基准MuirBench, MIBench和MMIU上取得SOTA效果,其单图能力相比于此前的多图模型也有明显的优势。
同时,为了深入探讨专用能力与通用能力间的影响,研究团队采用了相应的数据子集,分别训练了不同的模型,讨论了不同部分数据分别的作用,最终发现混合多图定位数据与通用数据对最终性能的提升最大,多图细粒度定位对于多图通用能力确实存在一定帮助。
在传统的单图视觉定位上,Migician的Grounding能力也有一定的持续增益。
不同推理方式的讨论
前文的CoT框架采用的是单图轮询推理,这种设定能较好适配原始模型的单图视觉定位能力,但是该方式会造成很大的推理时间成本,对于N张图像输入,要额外进行N+1次推理。那么我们能否在多图的语境下,直接通过prompt口头告诉模型:“嘿!你只用看第二张图就好啦~”,以这种方式来调用模型单图定位能力和多图理解能力,从而实现多步推理呢?
在下表中,研究团队验证了这种mCoT的有效性,但是其性能提升较为羸弱,普遍低于单图轮询CoT的效果,体现出模型原本的Grounding能力不能很好适配多图场景。
单图高分辨率任务
最后,论文还有一个比较有趣的发现。在视觉token的长度上,多图和高分辨率单图有很大的相似性,那么Migician对于多图的长token序列的处理能力能否迁移到高分辨率单图上呢?为了验证这个想法,作者们选取了V*Bench,它关注于在高分辨率图片中对微小物体的视觉搜索与属性判断。