专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

ECCV2024 (oral) | 突破场景图生成的边界：OvSGTR 实现全开放词汇场景图生成

我爱计算机视觉 · 公众号 · · 2024-09-21 23:50

正文

关注公众号，发现CV技术之美

论文名称: Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention
论文地址：https://arxiv.org/pdf/2311.10988
代码链接：https://github.com/gpt4vision/OvSGTR

随着计算机视觉领域的飞速发展，如何在复杂场景中精准识别对象及其关系成为了至关重要的挑战。场景图生成（Scene Graph Generation, SGG）作为一种将图像中的物体和它们之间的关系结构化表示的技术，广泛应用于图像理解、视觉问答、语义通信等任务中。然而，现有的SGG方法几乎都局限于封闭集，只能识别预定义的对象和关系类别。这一瓶颈极大地限制了SGG模型在真实世界中面对多样化场景的泛化能力。

OvSGTR 应运而生，它不仅打破了这一技术瓶颈，还为场景图生成领域带来了全新的突破。通过融合视觉-概念对齐与保留策略，OvSGTR首次实现了全开放词汇的场景图生成，即模型能够在未见过的对象和关系类别上进行精准预测，极大扩展了SGG的应用边界。

现有SGG模型的不足

大多数现有的SGG模型在训练和推理时仅依赖于预定义的对象和关系集合，这使得它们在面对未知的对象或关系时无法做出准确的预测。尽管近期有部分研究尝试扩展到开放词汇的对象检测，但对涉及关系的开放词汇场景图生成的研究相对匮乏。

OvSGTR框架：应对未知对象与关系的挑战

在这篇论文中，我们首次全面分析了SGG中的节点和边缘对开放词汇的影响，并提出了四个场景设置，分别是封闭集SGG、开放词汇对象检测（OvD-SGG）、开放词汇关系检测（OvR-SGG）及开放词汇对象+关系检测（OvD+R-SGG）。其中，OvD+R-SGG 是最具挑战的场景，涉及到同时预测未知的对象和关系。