专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
51好读  ›  专栏  ›  极市平台

ECCV2024 (oral)|突破场景图生成的边界:OvSGTR 实现全开放词汇场景图生成

极市平台  · 公众号  · 科技自媒体  · 2024-09-22 22:00

主要观点总结

OvSGTR通过融合视觉-概念对齐与保留策略,首次实现了全开放词汇的场景图生成。模型能够在未见过的对象和关系类别上进行精准预测,极大扩展了SGG的应用边界。文章介绍了SGG的重要性、现有模型的不足、OvSGTR框架的特点和优势、实验数据及展望。

关键观点总结

关键观点1: OvSGTR实现了全开放词汇的场景图生成

模型能够在未见过的对象和关系类别上进行精准预测,极大扩展了SGG的应用范围。

关键观点2: 现有SGG模型的不足

大多数现有SGG模型仅依赖于预定义的对象和关系集合,难以处理未知的对象或关系。

关键观点3: OvSGTR框架的特点和优势

OvSGTR采用端到端的Transformer架构,通过图像-文本数据进行弱监督关系感知的预训练,并采用视觉-概念对齐与保留策略,增强模型对未见类别的泛化能力。

关键观点4: 实验数据与展望

OvSGTR在Visual Genome基准数据集上的实验表现出卓越性能。未来改进方向包括提高伪标签生成的精度和探讨场景图生成与多模态大型语言模型之间的相互协作。


正文

↑ 点击 蓝字 关注极市平台
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

通过融合视觉-概念对齐与保留策略,OvSGTR首次实现了全开放词汇的场景图生成,即模型能够在未见过的对象和关系类别上进行精准预测,极大扩展了SGG的应用边界。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

论文地址: https://arxiv.org/pdf/2311.10988

代码链接: https://github.com/gpt4vision/OvSGTR

SGG任务示例 (识别给定图像中的目标及目标之间的关系)

随着计算机视觉领域的飞速发展,如何在复杂场景中精准识别对象及其关系成为了至关重要的挑战。场景图生成(Scene Graph Generation, SGG)作为一种将图像中的物体和它们之间的关系结构化表示的技术,广泛应用于图像理解、视觉问答、语义通信等任务中。然而,现有的SGG方法几乎都局限于封闭集,只能识别预定义的对象和关系类别。这一瓶颈极大地限制了SGG模型在真实世界中面对多样化场景的泛化能力。

OvSGTR 应运而生,它不仅打破了这一技术瓶颈,还为场景图生成领域带来了全新的突破。通过融合视觉-概念对齐与保留策略,OvSGTR首次实现了全开放词汇的场景图生成,即模型能够在未见过的对象和关系类别上进行精准预测,极大扩展了SGG的应用边界。

现有SGG模型的不足

大多数现有的SGG模型在训练和推理时仅依赖于预定义的对象和关系集合,这使得它们在面对未知的对象或关系时无法做出准确的预测。尽管近期有部分研究尝试扩展到开放词汇的对象检测,但对涉及关系的开放词汇场景图生成的研究相对匮乏。

OvSGTR框架:应对未知对象与关系的挑战

在这篇论文中,我们首次全面分析了SGG中的节点和边缘对开放词汇的影响,并提出了四个场景设置,分别是封闭集SGG、开放词汇对象检测(OvD-SGG)、开放词汇关系检测(OvR-SGG)及开放词汇对象+关系检测(OvD+R-SGG)。其中,OvD+R-SGG 是最具挑战的场景,涉及到同时预测未知的对象和关系。

本文提出的四种SGG场景设定 (虚线表示训练阶段未见过的目标类或关系类)

为应对这些挑战,OvSGTR采用了一种端到端的Transformer架构,通过图像-文本数据进行弱监督关系感知的预训练,并在训练过程中通过视觉-概念对齐来增强模型对未见类别的泛化能力。

本文所提出的 OvSGTR 框架示意图

视觉-概念对齐与保留策略

OvSGTR利用图像-文本对进行弱监督学习,通过从图像描述中解析关系三元组来生成伪标签,并结合视觉特征对节点和边缘进行对齐。此外,针对模型在训练新数据时容易遗忘先前知识的问题,我们提出了视觉-概念保留策略,通过知识蒸馏减少这种“灾难性遗忘”,确保模型在学习新任务时仍能保持对旧任务的记忆能力。

实验结果与展望

在Visual Genome基准数据集上的实验表明,OvSGTR在所有设置中都表现出了卓越的性能,尤其在开放词汇场景下,显著优于其他模型。我们的方法不仅在节点预测方面展现了强大的开放词汇能力,而且在复杂的关系预测任务中也达到了新的技术高度。

Closed-set SGG 场景下的定量结果: 以更少的训练参数, 更快的推理速度取得 SOTA结果
OvD+R-SGG 场景下的定量结果: 大多数现有的模型无法识别训练阶段未见过的类别
定性结果样例 (虚线代表训练阶段未见过的目标/关系类)

尽管OvSGTR取得了显著进展,但未来仍有一些改进空间。例如,利用大型语言模型(LLM)来代替传统的语言解析器,进一步提高伪标签生成的精度。此外,场景图生成与(多模态)大型语言模型之间的相互协作也值得探讨,以期在更少标注的条件下提升场景图生成的性能。

总结

本文通过提出OvSGTR,扩展了场景图生成任务的边界,首次实现了全开放词汇的SGG框架。该框架结合视觉-概念对齐与保留策略,能够应对包括未知对象与关系在内的复杂任务,并在多个场景中展现了卓越的泛化能力。


公众号后台回复“ 数据集 ”获取100+深度学习各方向资源整理

极市干货







请到「今天看啥」查看全文