专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
萧山发布  ·  重磅!知名电商平台项目落户萧山! ·  昨天  
萧山发布  ·  重磅!知名电商平台项目落户萧山! ·  昨天  
浦东企业政策在线  ·  解读 | 电子税务局App办理纳税申报作废操作指引 ·  昨天  
浦东企业政策在线  ·  解读 | 电子税务局App办理纳税申报作废操作指引 ·  昨天  
宝鸡市场监管  ·  今天起,正式施行! ·  昨天  
宝鸡市场监管  ·  今天起,正式施行! ·  昨天  
51好读  ›  专栏  ›  我爱计算机视觉

ECCV2024 (oral) | 突破场景图生成的边界:OvSGTR 实现全开放词汇场景图生成

我爱计算机视觉  · 公众号  ·  · 2024-09-21 23:50

正文




关注公众号,发现CV技术之美





  • 论文名称: Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention
  • 论文地址:https://arxiv.org/pdf/2311.10988
  • 代码链接:https://github.com/gpt4vision/OvSGTR
SGG任务示例 (识别给定图像中的目标及目标之间的关系)

随着计算机视觉领域的飞速发展,如何在复杂场景中精准识别对象及其关系成为了至关重要的挑战。 场景图生成(Scene Graph Generation, SGG)作为一种将图像中的物体和它们之间的关系结构化表示的技术,广泛应用于图像理解、视觉问答、语义通信等任务中 。然而,现有的SGG方法几乎都局限于封闭集,只能识别预定义的对象和关系类别。这一瓶颈极大地限制了SGG模型在真实世界中面对多样化场景的泛化能力。

OvSGTR 应运而生,它不仅打破了这一技术瓶颈,还为场景图生成领域带来了全新的突破。 通过融合视觉-概念对齐与保留策略,OvSGTR首次实现了全开放词汇的场景图生成 ,即模型能够在未见过的对象和关系类别上进行精准预测,极大扩展了SGG的应用边界。

现有SGG模型的不足

大多数现有的SGG模型在训练和推理时仅依赖于预定义的对象和关系集合,这使得它们在面对未知的对象或关系时无法做出准确的预测。尽管近期有部分研究尝试扩展到开放词汇的对象检测,但对涉及关系的开放词汇场景图生成的研究相对匮乏。

OvSGTR框架:应对未知对象与关系的挑战

在这篇论文中,我们首次全面分析了SGG中的节点和边缘对开放词汇的影响,并提出了四个场景设置,分别是封闭集SGG、开放词汇对象检测(OvD-SGG)、开放词汇关系检测(OvR-SGG)及开放词汇对象+关系检测(OvD+R-SGG)。其中,OvD+R-SGG 是最具挑战的场景,涉及到同时预测未知的对象和关系。

本文提出的四种SGG场景设定 (虚线表示训练阶段未见过的目标类或关系类)

为应对这些挑战,OvSGTR采用了一种端到端的Transformer架构,通过图像-文本数据进行弱监督关系感知的预训练,并在训练过程中通过视觉-概念对齐来增强模型对未见类别的泛化能力。

本文所提出的 OvSGTR 框架示意图

视觉-概念对齐与保留策略

OvSGTR利用图像-文本对进行弱监督学习,通过从图像描述中解析关系三元组来生成伪标签,并结合视觉特征对节点和边缘进行对齐。此外,针对模型在训练新数据时容易遗忘先前知识的问题,我们提出了视觉-概念保留策略,通过知识蒸馏减少这种“灾难性遗忘”,确保模型在学习新任务时仍能保持对旧任务的记忆能力。

实验结果与展望

在Visual Genome基准数据集上的实验表明,OvSGTR在所有设置中都表现出了卓越的性能,尤其在开放词汇场景下,显著优于其他模型。我们的方法不仅在节点预测方面展现了强大的开放词汇能力,而且在复杂的关系预测任务中也达到了新的技术高度。

Closed-set SGG 场景下的定量结果: 以更少的训练参数, 更快的推理速度取得 SOTA结果
OvD+R-SGG 场景下的定量结果: 大多数现有的模型无法识别训练阶段未见过的类别

定性结果样例 (虚线代表训练阶段未见过的目标/关系类)

尽管OvSGTR取得了显著进展,但未来仍有一些改进空间。例如,利用大型语言模型(LLM)来代替传统的语言解析器,进一步提高伪标签生成的精度。此外,场景图生成与(多模态)大型语言模型之间的相互协作也值得探讨,以期在更少标注的条件下提升场景图生成的性能。







请到「今天看啥」查看全文