专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

ECCV'24 | 打破水下6D姿态估计的瓶颈！清华大学FAFA框架：如何通过无标注图像精准实现？

3D视觉工坊 · 公众号 · · 2024-09-29 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了FAFA框架，旨在通过自监督学习实现水下物体姿态估计，利用未标注的真实图像进行训练。文章介绍了一种基于快速傅里叶变换（FFT）的数据增强策略，以将目标领域的风格引入合成数据，并促进网络学习领域不变的特征。此外，作者在自监督网络中使用形状约束的光流和多种图像级与特征级的对齐方法，以增强网络在复杂水下环境中的鲁棒性，最终实现更准确的姿态估计。通过在两个不同风格的水下无人水下车辆（UUV）数据集上的实验，FAFA框架展现了比现有最先进方法更优越的性能。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：FAFA: Frequency-Aware Flow-Aided Self-Supervision for Underwater Object Pose Estimation

作者：Jingyi Tang, Gu Wang等

作者机构：Tsinghua University等

论文链接：https://arxiv.org/pdf/2409.16600

2. 摘要

尽管室内场景中物体姿态估计的方法取得了巨大成功，但由于复杂的水下环境带来的挑战（如光照不足、模糊以及获得真实标注的高成本），水下物体的姿态估计仍然具有很大难度。为此，我们提出了FAFA，一个基于频率感知的流辅助自监督框架，用于无人水下航行器（UUV）的6D姿态估计。基本上，我们首先在合成数据上训练一个基于频率感知的流姿态估计器，并提出了一种基于FFT的增强方法，以帮助网络从频率的角度捕捉领域不变特征和目标领域样式。此外，我们通过强制实施流辅助的多级一致性进行自监督训练，以适应现实世界的水下环境。我们的框架仅依赖于3D模型和RGB图像，减轻了对真实姿态标注或深度等其他模态数据的需求。我们在常见的水下物体姿态基准上评估了FAFA的有效性，并展示了相较于现有先进方法的显著性能提升。代码可在 github.com/tjy0703/FAFA 获取。

3. 效果展示

（a）ROV 6D和（B）DeepURL的定性结果。结果分别是使用自我监督之前（上图）和之后（下图）的结果。绿色和红色线框表示地面实况姿势和结果。

4. 主要贡献

我们提出了一种两阶段自监督框架，用于水下基于RGB的6D姿态估计，能够有效利用未标记的水下图像进行端到端的领域适应。
我们引入了一种频率感知增强策略，以提高整体姿态准确性以及网络对不同水下领域的适应性。
我们提出建立多级流辅助一致性，涵盖图像级和特征级对齐，从而增强自监督的有效性。

5. 基本原理是啥？

自监督学习 ：FAFA旨在从未标注的真实世界图像中学习物体的姿态估计信息。这种学习方式不依赖于人工标注数据，而是利用网络自身的学习能力，从大量数据中提取有用特征。
基于FFT的数据增强 ：该框架提出了一种基于快速傅里叶变换（FFT）的方法，用于在预训练阶段将目标领域的风格引入合成数据。通过这种方式，合成数据能够更好地模拟真实环境中的变化，促进网络学习领域不变特征，使其在不同风格的数据上具有更好的适应能力。推荐课程：单目深度估计方法：算法梳理与代码实现。
光流约束 ：在自监督网络中，FAFA采用形状约束的光流方法，利用光流信息来保持物体形状的一致性，这有助于提高网络对复杂水下环境的鲁棒性。
图像级和特征级对齐 ：框架中提出了多种图像级和特征级的对齐技术，这些技术能够增强网络在不同输入图像之间的一致性，从而改善姿态估计的准确性。
性能评估 ：FAFA在多个水下无人水面艇（UUV）数据集上进行评估，显示出比现有最先进方法更优越的性能。

6. 实验结果

性能评估指标 ：

使用 ADD-S （Average Distance of Correctly Aligned Shapes）和 5°/5 cm （即物体姿态估计的角度和位移误差）的指标来评估模型的准确性。

在ROV6D数据集上的表现 ：

在未标注的真实数据上进行自监督训练，FAFA框架在ADD-S和5°/5 cm指标上均显著超越了传统的流基方法（如SCFlow）和基于密集对应关系的方法（如CDPN和GDRN）。
自监督训练的结果与使用预训练模型的结果相近，表明其在处理遮挡和复杂水下环境时表现出的良好鲁棒性。

在DeepURL数据集上的表现 ：

FAFA框架在不同测试条件下的ADD 0.1d指标显示出较高的准确性，特别是在与PFC方法的比较中，FAFA在5°和5 cm指标上均有显著提升。
这些结果进一步证明了自监督学习对提升模型性能的有效性。

对比实验 ：

与现有最先进方法相比，FAFA框架在多项指标上都显示出优越的性能，证明其有效应对了复杂水下环境的挑战。
实验结果表明，该框架能够从未标注的数据中学习到丰富的特征，从而在水下物体姿态估计中实现更高的准确性和鲁棒性。

7. 总结 & 未来工作

我们提出了FAFA，一个自监督的水下物体姿态估计框架，旨在从未标注的真实世界图像中学习信息。实质上，我们提出了一种基于FFT的数据增强策略，在预训练阶段将目标领域的风格引入合成数据，并促进网络学习领域不变特征。此外，在我们的自监督网络中，我们利用形状约束的光流，并提出了多种图像级和特征级对齐方法，以提高网络在复杂水下环境中的鲁棒性，从而实现更准确的姿态估计。我们的方法在两个具有不同风格的水下无人水面艇数据集上进行了评估，显示出优于先前最先进方法的性能。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。