-
论文名称: Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention
-
论文地址:https://arxiv.org/pdf/2311.10988
-
代码链接:https://github.com/gpt4vision/OvSGTR
SGG任务示例 (识别给定图像中的目标及目标之间的关系)
随着计算机视觉领域的飞速发展,如何在复杂场景中精准识别对象及其关系成为了至关重要的挑战。
场景图生成(Scene Graph Generation, SGG)作为一种将图像中的物体和它们之间的关系结构化表示的技术,广泛应用于图像理解、视觉问答、语义通信等任务中
。然而,现有的SGG方法几乎都局限于封闭集,只能识别预定义的对象和关系类别。这一瓶颈极大地限制了SGG模型在真实世界中面对多样化场景的泛化能力。
OvSGTR 应运而生,它不仅打破了这一技术瓶颈,还为场景图生成领域带来了全新的突破。
通过融合视觉-概念对齐与保留策略,OvSGTR首次实现了全开放词汇的场景图生成
,即模型能够在未见过的对象和关系类别上进行精准预测,极大扩展了SGG的应用边界。
现有SGG模型的不足
大多数现有的SGG模型在训练和推理时仅依赖于预定义的对象和关系集合,这使得它们在面对未知的对象或关系时无法做出准确的预测。尽管近期有部分研究尝试扩展到开放词汇的对象检测,但对涉及关系的开放词汇场景图生成的研究相对匮乏。
OvSGTR框架:应对未知对象与关系的挑战
在这篇论文中,我们首次全面分析了SGG中的节点和边缘对开放词汇的影响,并提出了四个场景设置,分别是封闭集SGG、开放词汇对象检测(OvD-SGG)、开放词汇关系检测(OvR-SGG)及开放词汇对象+关系检测(OvD+R-SGG)。其中,OvD+R-SGG 是最具挑战的场景,涉及到同时预测未知的对象和关系。
本文提出的四种SGG场景设定 (虚线表示训练阶段未见过的目标类或关系类)
为应对这些挑战,OvSGTR采用了一种端到端的Transformer架构,通过图像-文本数据进行弱监督关系感知的预训练,并在训练过程中通过视觉-概念对齐来增强模型对未见类别的泛化能力。
本文所提出的 OvSGTR 框架示意图
视觉-概念对齐与保留策略
OvSGTR利用图像-文本对进行弱监督学习,通过从图像描述中解析关系三元组来生成伪标签,并结合视觉特征对节点和边缘进行对齐。此外,针对模型在训练新数据时容易遗忘先前知识的问题,我们提出了视觉-概念保留策略,通过知识蒸馏减少这种“灾难性遗忘”,确保模型在学习新任务时仍能保持对旧任务的记忆能力。
实验结果与展望
在Visual Genome基准数据集上的实验表明,OvSGTR在所有设置中都表现出了卓越的性能,尤其在开放词汇场景下,显著优于其他模型。我们的方法不仅在节点预测方面展现了强大的开放词汇能力,而且在复杂的关系预测任务中也达到了新的技术高度。
Closed-set SGG 场景下的定量结果: 以更少的训练参数, 更快的推理速度取得 SOTA结果
OvD+R-SGG 场景下的定量结果: 大多数现有的模型无法识别训练阶段未见过的类别
定性结果样例 (虚线代表训练阶段未见过的目标/关系类)
尽管OvSGTR取得了显著进展,但未来仍有一些改进空间。例如,利用大型语言模型(LLM)来代替传统的语言解析器,进一步提高伪标签生成的精度。此外,场景图生成与(多模态)大型语言模型之间的相互协作也值得探讨,以期在更少标注的条件下提升场景图生成的性能。