专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

ECCV'24最新 | 上交大带你重新思考视觉推理中的两个阶段

3D视觉工坊 · 公众号 · · 2024-08-05 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群

扫描下方二维码，加入 3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种新的视觉推理框架，包含两个主要阶段：符号化和推理。符号化阶段将数据转换为符号表示，而推理阶段则利用共享推理器对这些符号进行逻辑推理。该框架的核心创新在于将符号编码器和推理器分离，允许在多个任务中共享推理器，进而提升了模型的任务无关性和泛化能力。通过在2D谜题、2D视觉问答和3D直观物理学等多种任务上的实验，验证了框架的有效性，展示了其在处理不同领域任务时的优越性能。研究结果表明，适当选择符号编码器的复杂度，并使用多领域数据训练推理器，能够显著提高视觉推理系统的泛化能力。文章的贡献为开发具有更广泛适用性的视觉推理系统提供了新的方向。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：Take A Step Back: Rethinking the Two Stages in Visual Reasoning

作者：Mingyu Zhang, Jiting Cai等

作者机构：Shanghai Jiao Tong University等

论文链接：https://arxiv.org/pdf/2407.19666

2. 摘要

作为一个重要的研究领域，视觉推理在人工智能中发挥着关键作用，有助于概念的形成和与世界的互动。然而，当前的研究通常在小型数据集上单独进行，因此缺乏泛化能力。通过对多种基准的严格评估，我们展示了现有临时方法在实现跨领域推理中的不足，以及它们在数据偏差拟合方面的倾向。在本文中，我们从两个阶段的角度重新审视视觉推理：（1）符号化和（2）基于符号或其表示的逻辑推理。我们发现推理阶段在泛化能力上优于符号化。因此，通过为不同的数据领域使用分离的编码器，同时使用共享的推理器来实现符号化更加高效。基于我们的发现，我们建立了遵循分离符号化和共享推理的视觉推理框架设计原则。所提出的两阶段框架在包括谜题、物理预测和视觉问答（VQA）在内的各种视觉推理任务上表现出色，涵盖了2D和3D模式。我们相信，我们的见解将为可泛化的视觉推理铺平道路。我们的代码公开在 https://mybearyzhang.github.io/projects/TwoStageReason。

3. 效果展示

纠缠与解纠缠类型 1: 符号编码器和推理器完全分离。类型 2: 编码器和推理器均为共享。类型 3: 仅编码器为共享。类型 4: 仅推理器为共享。

符号化的探测过程。我们改变符号编码器（ResNet）的深度，并在训练框架的同时记录每个编码器深度下的准确性。曲线在中等深度处出现拐点。

使用共享推理器的“近似原理”验证。第1步，包括选择1到4个数据集，即SVRT、Bongard-HOI、CoPhy-Balls和VQAv2，用于训练推理器。此组合提供了总共15种可能的排列。第2步，经过高效训练的推理器将接受对CoPhy-Collision数据集的严格测试，以进行评估和验证。

4. 主要贡献

我们从先前的视觉推理网络中获得灵感，总结了一个高效的两阶段视觉推理视角。
我们研究了视觉推理中符号化和逻辑推理的最佳设计原则。
因此，我们介绍了一个在多个数据集上表现良好的简洁框架，适用于具有领域差距的数据集。

5. 基本原理是啥？

这篇文章的基本原理是建立一个 两阶段的视觉推理框架 ，其中包括 符号化（Symbolization） 和 推理（Reasoning） 两个阶段：

符号化阶段（Symbolization） ：

目标：将原始数据转换为符号表示。
方法：使用符号编码器将数据（如图像或视频帧）转化为符号化的特征或表示，这些特征能够捕捉数据中的关键信息和属性。
作用：符号化阶段的目的是为下游的推理阶段提供结构化的、便于处理的信息。

推理阶段（Reasoning） ：

目标：在符号表示的基础上执行逻辑推理。
方法：使用共享的推理器对符号化的特征进行逻辑推理，以解决不同任务中的推理问题。这一阶段不依赖于特定的任务，可以在不同领域之间共享。
作用：推理阶段利用符号表示进行复杂的逻辑操作，如关系推理、模式识别等，以完成特定的视觉推理任务。

核心贡献和发现：

任务无关性 ：推理阶段具有更高的任务无关性，因此可以跨领域共享，使得推理器能够在多个任务之间复用。
框架设计 ：文章提出了一个简洁的框架，包括 独立的符号编码器 和 共享的推理器 。这种设计允许符号化和推理任务分开处理，提高了系统的灵活性和泛化能力。
复杂度选择 ：选择合适的符号化复杂度和使用多领域数据来训练推理器对于实现良好的泛化能力至关重要。
实验结果 ：框架在多个具有领域差异的数据集上表现良好，证明了其在处理视觉推理任务中的有效性。

总之，这篇文章的基本原理在于通过将数据转化为符号表示，并在符号基础上进行逻辑推理，构建一个高效且泛化能力强的视觉推理系统。

6. 实验结果

数据集和设置

2D Puzzles :

数据集 ：RAVEN, CVR, SVRT, Bongard-LOGO, Bongard-HOI。
任务：评估神经网络的推理能力，涉及形状、颜色、大小、位置和逻辑关系等。
结果：这些数据集覆盖了几何形状、逻辑关系以及对比样本中的深层共同特征等方面的推理能力。

2D VQA :

数据集 ：VQAv2。
任务：视觉问答，评估模型在自然语言描述下的问答能力。
结果：VQAv2确保了每种问题类型的答案分布均衡，为模型选择提供了公平的评估标准。

3D Intuitive Physics :

数据集 ：Filtered-CoPhy。
任务：涉及块塔稳定性、球体运动规则和物体碰撞等任务。
结果：聚焦于推理而非帧预测，仅利用场景关键点之间的差异作为度量标准。

实验设置

网络训练 ：所有网络在100个epoch内使用Adam优化器进行训练，学习率和权重衰减通过Optuna微调。
轻量级推理器 ：使用MLP、CNN、Transformer等模块，参数不超过100M。测试推理器的泛化能力时，冻结推理器网络，训练编码器和头模块。
设备：所有实验使用4个Titan XP GPU，LLM实验使用1个V10032GB GPU。

缠结与解缠分析

实验：使用五个数据集（RAVEN, CVR, SVRT, Bongard-HOI, Bongard-LOGO）训练模型，控制变量并进行模型共享。
结果：

Shared-Reasoner-Only 的性能与ad-hoc的Both-Separated在所有五个数据集上相当，在RAVEN和SVRT上表现更好。
Shared-Encoder-Only 和 Both-Shared 在所有数据集上表现较差。
这反映了在多个任务中使用任务特定的符号编码器和共享推理器的设计有效性。

最佳符号化深度

实验：探测符号编码器的深度，以确定两个阶段之间的界限。
结果：实验展示了不同深度的符号编码器对推理性能的影响，有助于优化符号化的深度设置。

推理器的架构比较

实验：测试了CNN、MLP、Transformer、GCN、混合神经符号模型和MiniGPT-4等架构。
结果：

MLP 在四个数据集上表现最佳，与其他数据集的表现相当。
GCN 在三个数据集上表现良好。
Transformer 等通常被认为更先进的架构没有明显优势。
One-for-All 模型在大多数任务上表现优于ad-hoc的SOTA，特别是在RAVEN数据集上。

一致性评估

实验：使用一致性分数评估推理能力。使用相同的编码器和推理器参数，比较两种提问方法的结果一致性。
结果： One-for-All 模型在多个数据集上显示了较高的一致性，证明其在真实推理中的潜力。

LLM的性能评估

实验：使用MiniGPT-4作为共享推理器，测试其在不同任务中的表现。
结果：

MiniGPT-4 在特定任务（如RAVEN和Bongard-HOI）上超越了Lite One-for-All推理器。
这表明模型参数数量与推理能力之间没有绝对正相关关系。

近似原则验证

实验：使用SVRT、Bongard-HOI、Filtered-CoPhy中的球体和碰撞任务、VQAv2等数据集进行跨领域训练。
结果：

训练数据集的数量增加后，推理器性能逐渐提高。
处理更多的跨领域数据集可以提升推理器的任务无关性，验证了“近似原则”。

附加消融研究

实验：对比使用预训练模型和CLIP模型作为通用编码器的效果。
结果：

使用ImageNet预训练模型和未预训练模型的结果非常接近。
CLIP作为通用编码器的表现不如最佳的One-for-All方法，验证了分离编码器和共享推理器框架设计的合理性。

7. 总结 & 未来工作

在本研究中，我们提出了一种视觉推理的两阶段视角：符号化将数据转化为符号表示，而推理执行逻辑推理。我们展示了与符号化相比，推理更具任务无关性，并且可以跨领域共享。因此，我们引入了一个简洁的框架，由独立的符号编码器和共享的推理器组成。选择适当的符号化复杂度以及使用多领域数据来训练推理器以实现泛化是至关重要的。我们的框架在多个具有领域差异的数据集上表现良好。我们相信我们的工作将为可泛化的视觉推理系统铺平道路。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿