专栏名称: 点云PCL
公众号将会推送基于PCL库的点云处理,SLAM,三维视觉,高精地图相关的文章。公众号致力于理解三维世界相关内容的干货分享。不仅组织技术交流群,而且组建github组群,有兴趣的小伙伴们可以自由的分享。欢迎关注参与交流或分享。
目录
相关文章推荐
山东省交通运输厅  ·  山东机场集团:2025年春节假期预计保障旅客 ... ·  2 天前  
德州晚报  ·  破100亿!全球第一! ·  3 天前  
鲁中晨报  ·  全市集中行动!淄博4天查处633起 ·  4 天前  
51好读  ›  专栏  ›  点云PCL

深度学习在相机标定及其扩展中的应用:综述

点云PCL  · 公众号  ·  · 2024-12-04 08:30

正文


文章:Deep Learning for Camera Calibration and Beyond: A Survey

作者:Kang Liao, Lang Nie, Shujuan Huang, Chunyu Lin, Jing Zhang, Yao Zhao

编辑:点云PCL



欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。 文章仅做学术分享,如有侵权联系删文。未经博主同意请勿擅自转载。

公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系[email protected] 未经作者允许请勿转载,欢迎各位同学积极分享和交流。

摘要


相机标定涉及估计相机参数,以从捕获的序列图像中推断几何特征,这在计算机视觉和机器人领域至关重要。然而传统标定过程繁琐且需要专门的数据采集。最近的研究表明,基于学习的解决方案有潜力替代重复性的手动标定工作。在这些解决方案中,各种学习策略、网络结构、几何先验和数据集都得到了探索。本文对基于学习的相机标定技术进行了全面综述,分析了它们的优点与局限性。我们的主要标定类别包括标准针孔相机模型、畸变相机模型、跨视角模型和跨传感器模型,这些类别遵循了研究趋势及其扩展应用。由于该领域尚无统一的基准数据集,本文收集了一个全面的标定数据集,旨在作为一个公共平台,用于评估现有方法的泛化能力。该数据集包含合成和真实世界的数据,包括由不同相机在多种场景中拍摄的图像和视频。最后,我们讨论了这一领域面临的挑战,并提出了进一步的研究方向。据我们所知,这是首个针对基于学习的相机标定(涵盖近8年研究)的综述。文中总结的方法、数据集和基准将持续更新,并可在以下地址访问:

https://github.com/KangLiao929/Awesome-Deep-Camera-Calibration

图 1. 相机标定中的常见标定目标、模型及其扩展应用。

主要贡献


相机标定是计算机视觉和机器人技术中的基础任务,用于估计相机的内参(图像传感器参数和畸变参数)和外参(旋转和平移参数),以支持计算摄影、多视几何和三维重建等任务。标定技术涉及针孔相机模型、鱼眼相机、立体相机、光场相机、事件相机以及LiDAR-相机系统等多种设备,其应用领域包括虚拟现实、自动驾驶和神经渲染等。传统方法依赖于手动设计的特征和模型假设,可分为三大类:

  • 标定目标法:使用校准目标(如棋盘格),通过多视角拍摄角点计算相机参数,但步骤繁琐且难以自动化。

  • 几何先验法:利用几何结构(如线条和消失点)进行标定,但对几何丰富的人造场景依赖较强,在普通环境中表现不佳。

  • 自标定法:通过多视几何估计相机参数,但易受特征检测器性能限制。

随着深度学习的兴起,基于学习的方法为相机标定提供了更灵活的解决方案,这些方法摆脱了传统手工设计的限制,可以实现无目标、模型无关和自动化的标定,为未知场景和单张图像的标定提供了新方向。本文总结了过去60年的相机标定技术发展,尤其是过去8年中基于深度学习的方法,覆盖了超过100篇文献。以下是主要贡献和内容摘要:

  • 深入分析了基于深度学习的相机标定方法的不同方面,包括网络架构、损失函数、数据集、评估指标和学习策略等。比较了传统的物理模型与神经网络的非参数化方法。

  • 拓展研究范围,在传统参数(如焦距、旋转、平移)的基础上,还涵盖了图像失真校正(径向畸变、滚动快门畸变)、跨视角映射估计、相机与LiDAR联合标定等扩展应用。

  • 数据集与评测平台,构建了一个综合数据集,包括由不同相机在多种环境中捕获的图像和视频,支持现有方法的泛化能力评估。

  • 未来研究方向,总结了基于学习的相机标定在精度、鲁棒性、通用性等方面的挑战,并提出了一些未来的研究方向。

  • 开源平台,创建了一个开源资源库,提供所有研究的分类和基准,定期更新并公开发布于https://github.com/KangLiao929/Awesome-Deep-Camera-Calibration

主要内容


图 2. 基于深度学习的相机标定的结构化与层次化分类法。每个类别下列出了一些经典方法。

标准模型

在基于深度学习的相机标定中,内参标定的目标通常包括焦距和光心,而外参标定的目标主要是旋转矩阵和平移向量。

内参标定

  • Deepfocal:作为学习型相机标定的开创性工作,旨在估计“自然场景”中任意图像的焦距。其方法基于针孔相机模型,利用深度卷积神经网络回归水平视场角(Hθ)。

  • MisCaliDet:针对因组件磨损、温度波动或外部干扰引起的相机内参变化,提出一种新标量度量指标 APPD(平均像素位置差异),用于衡量相机失准程度。

外参标定

  • PoseNet:首次使用深度卷积神经网络实时回归相机的6自由度位姿(3D位置 xxx 和四元数表示的方向 qqq)。

  • DeepFEPE:设计端到端的基于关键点的框架,模仿传统管道以检测、特征提取、匹配和排除异常点。

  • 其他方法利用中间表征(如表面几何、深度图、方向概率分布等)和几何约束,引导网络感知几何相关特征以优化外参估计。

联合内外参标定

几何表征:

  • 消失点:如 DeepVP和 NeurVPS提出了从单张图像中检测消失点的深度学习方法,结合几何先验实现高效学习。

  • 地平线线条:如 DeepHorizon通过深度学习估计图像中的地平线位置,尤其应用于图像测量与3D场景理解。

复合参数标定:

  • Hold-Geoffroy et al. :通过大规模全景数据集训练,实现内外参的联合标定。还开展了人类感知研究,以评估校准精度对3D对象真实性的影响。

  • CTRL-C:结合语义特征和几何线索,引导网络理解图像的透视结构。

早期工作分别研究内参和外参标定,后续研究逐渐关注全面标定及联合优化方法。几何先验在减轻深度学习对大数据需求方面展现潜力。未来方向:

  • 探索更多模型先验:利用非参数模型直接编码3D射线与图像像素之间的关系,减少对特定相机模型的假设。

  • 解耦学习阶段:将特征提取与目标估计分离,可提高学习效率并推广至更广泛的标定问题。

  • 基于几何差异的误差度量:构建统一的几何属性测量空间,以平衡不同参数误差。

  • 基于NeRF的标定:尽管NeRF技术在同时优化相机参数和位姿方面取得进展,但其计算需求高且在稀疏视图或低纹理场景中存在挑战。

畸变模型

在基于深度学习的相机标定中,由于广角镜头和CMOS传感器的广泛应用,径向畸变和滚动快门畸变的校正受到越来越多的关注。这里主要回顾这两种畸变的标定与校正方法。径向畸变针对基于深度学习的径向畸变校正方法,文献大致分为两类:基于回归的解决方案和基于重建的解决方案。

基于回归的解决方案

  • 经典方法:Rong等人和DeepCalib是学习型广角相机标定的开创性工作,他们将相机标定建模为监督分类或回归问题,通过卷积层和全连接层的网络学习输入图像的畸变特征,并预测相机参数,其中DeepCalib提出了三种学习策略,实验表明简单的单网络架构(SingleNet)在准确性和效率方面表现最佳。后续改进:一些研究引入了语义特征和几何特征,以增强网络对畸变的感知能力。此外,方法如无监督学习、自监督学习和强化学习进一步提升了泛化能力。

  • 动态生成:RDC-Net通过在训练过程中随机生成畸变图像,提升了校正性能并防止模型过拟合。

  • 可解释性:一些研究探索了径向对称特性,开发了位置感知的权重层,如Shi等人的固定权重层和PSE-GAN的可学习权重层,从而使网络显式感知畸变。

基于重建的解决方案

受到条件图像到图像转换技术和密集视觉感知的启发,重建方法从传统回归方法中逐渐发展出来。例如DR-GAN首次直接建模失真图像和校正图像之间的逐像素映射,摆脱了对相机模型假设的依赖,实现了无相机参数训练和单阶段校正。

  • 统一模型:DDM通过畸变分布图将不同相机模型统一到一个领域,并结合几何先验实现图像校正。

  • 减少伪影:后续研究开发了位移场来减少像素级伪影生成。例如FE-GAN将几何先验和自监督策略相结合,提出了一种适用于广角相机标定的失真流学习方法。

  • 改进架构:PCN设计了校正层,避免跳跃连接造成的模糊问题,而PolarRecNet通过将失真图像从笛卡尔坐标系转换到极坐标系,进一步提高了对径向对称性的感知能力。

  • 滚动快门畸变:深度学习在滚动快门(RS)畸变校正方面分为两类:基于单帧的解决方案和基于多帧的解决方案。

基于单帧的解决方案

经典方法是URS-CNN是首个针对滚动快门校正的学习型工作,通过长核卷积网络提取场景结构和行扫描相机运动的交互特性。RSC-Net进一步提升自由度至6-DoF,提出了结构与运动感知校正模型。事件相机EvUnroll利用事件相机的高时间分辨率特性,将RS校正问题转化为事件流处理。

基于多帧的解决方案

运动估计:DeepUnrollNet首次使用两帧RS图像构建端到端网络,通过前向映射模块估计RS到全局快门(GS)的位移场。联合校正:JCD结合RS校正和去模糊技术,设计了双向映射流以补偿位移并恢复细节。对齐改进:SUNet通过上下文感知的校正流消除连续帧之间的错位问题,而AW-RSC利用多头注意力机制和可学习卷积块进一步提升了校正精度。 基于回归的解决方案逐渐被基于重建的方法替代,后者通过学习位移场实现更高效的校正,越来越多的研究引入几何先验和多样化特征,推动了深度学习模型的快速收敛和解释能力的提升。未来方向

  • 将滚动快门和广角相机标定的技术互相借鉴,如多帧校正策略和几何先验的应用。

  • 设计更高效的训练数据采样策略,减少冗余标注数据对模型训练效率的影响。

  • 引入高精度传感器(如事件相机)或多模态传感器,实现跨模态联合标定,提高标定的精度和稳定性。

跨视图模型的深度单应估计方法

跨视图模型处理多相机场景中的复杂参数表示,如基础矩阵、基本矩阵和单应矩阵。单应矩阵(Homography)是最常用于描述不同视角间像素级对应关系的工具,并在深度学习研究中得到了广泛探讨。针对深度单应估计方法,可分为直接解决方案、级联解决方案和迭代解决方案。

直接解决方案,直接解决方案通过不同参数化方法直接估计单应矩阵,包括经典的4点参数化和其他形式。

  • 点参数化:早期方法(如DHN)使用VGG网络预测4点参数化,随后通过DLT算法计算3×3单应矩阵。后续发展包括:

  • 无监督方法(如UDHN):以像素级光度误差为损失,避免真实标注数据的依赖。

  • 轻量化网络(如ShuffleHomoNet):通过多尺度特征表示应对大位移。

  • 处理视差方法:如CA-UDHN设计注意力掩码忽略视差区域,改进背景对齐。

  • 拓展:将4点参数化拓展为网格流以实现更精确的非平面对齐。

级联解决方案,级联方法通过复杂网络架构逐步改进单应估计性能。

  • HierarchicalNet:堆叠网络减少误差。

  • 多尺度学习:通过图像金字塔结构逐步增强对大位移的适应能力,但特征冗余问题仍需优化。

  • 跨分辨率问题:如LocalTrans通过局部Transformer网络解决不同分辨率输入的对齐问题。

  • 低重叠图像处理:修改无监督约束以适应真实低重叠场景。

迭代解决方案,迭代方法通过逐步优化提升单应估计的准确性。

  • 基于Lucas-Kanade(LK)算法的优化,使用反向组合形式(IC-LK)避免重复计算梯度。

  • CLKN通过CNN提取语义特征并在特征图上迭代优化单应参数。

  • IHN受RAFT启发,通过更新代价体积反复优化单应矩阵,具备处理动态场景的能力。

  • 参数化方面:从经典4点参数化扩展到视角场、运动基等形式,改进了收敛性和性能。

  • 网络设计方面:级联和迭代方法逐步优化,解决实际问题如分辨率差异、多模态输入、动态对象和非平面场景。

挑战与未来方向

  • 分辨率灵活性:现有方法多为固定分辨率,需探索分辨率无关的参数化形式。

  • 低重叠率场景:扩大网络感受野,如通过Transformer模块引入长程相关性。

  • 动态场景和视差问题:需在特征提取后进行离群点剔除,并结合全局与局部相关性增强学习。

图 11. 收集的基准数据集概览,涵盖了本文中回顾的所有模型。该数据集中,图像和视频来自不同环境下的各种相机,每个样本均提供了精确的真实值和标签。

跨传感器模型

多传感器标定是为多种传感器(如相机、LiDAR 和 IMU)估计内外参的过程,目的是确保不同传感器的数据在统一坐标系中同步并配准,以实现数据融合,从而更准确地表示环境信息。这对于自动驾驶和机器人等需要传感器融合的场景至关重要。以下主要综述基于学习的相机-LiDAR标定方法,目标是预测相机与 3D LiDAR 的 6 自由度(6-DoF)刚体变换,无需依赖特定特征或地标。基于学习的标定方法分为三类:像素级方法、语义级方法和目标/关键点级方法。

像素级方法,这类方法利用深度学习框架,从图像与点云的像素特征出发完成标定:

  • RegNet 首创像素级深度学习标定方法,通过 CNN 提取 RGB 和深度图特征并完成全局回归,得到 6-DoF 外参。

  • CalibNet 通过最大化图像与点云的几何和光度一致性,使用 3D 空间变换器优化标定。

  • CalibRCNN 引入了时序信息,用 LSTM 学习多帧之间的几何和光度误差。

  • RGGNet 在损失函数中引入 SE(3) 流形几何约束。

  • LCCNet 借助成本体积层学习图像与点云的相关性。

  • FusionNet 直接从点云中提取 3D 特征并结合注意力机制进行特征融合。

  • CFNet 提出标定流的概念,优化 2D 点和 3D 点的配准精度。

  • DXQNet 引入不确定性模型和可微分姿态估计模块。

语义级方法,语义级方法基于深度学习提取的高层语义特征,确保多传感器间的语义对齐:

  • SOIC 利用语义质心解决初始化问题,构造语义成分约束损失。

  • SSI-Calib 将标定问题转化为优化问题,通过非单调子梯度算法优化参数。

  • 利用现成的分割网络最小化语义对齐误差,采用单向或双向优化。

目标/关键点级方法,目标或关键点级方法通过检测与匹配2D/3D目标来完成标定:

  • ATOP 使用 YOLOv4 和 PointPillar 提取 2D/3D 目标,结合粒子群优化算法计算外参。

  • RGKCNet 将几何求解器与网络结合,使用深度声明式网络(DDN)实现 2D-3D 数据关联和姿态估计。

技术总结

  • 像素级方法一般采用端到端框架,但泛化能力较弱。

  • 语义级和目标级方法结合传统算法,具有良好的泛化能力,但依赖特征提取质量。

研究趋势

  • 网络架构趋于复杂,采用多尺度特征提取、跨模态交互、成本体积等技术。

  • 标定流等中间表示提高了泛化能力并可处理非刚性变换。

  • 几何求解与学习方法的结合日益深入。

  • 数据集改进:利用仿真系统生成更真实的相机-LiDAR数据,突破当前基于噪声模拟的假设。

  • 端到端优化:开发更紧凑的网络框架,整合特征提取与几何求解。

  • 2D-3D匹配优化:探索 Transformer 等跨模态技术,直接学习图像和点云特征。

  • 统一模型:基于深度学习的隐式非参模型可能替代传统参数化模型,实现像素级标定,避免特征提取和几何求解。

总结


综述涵盖了传统相机模型、分类学习范式与学习策略、对最先进方法的详细回顾、公开基准测试以及未来研究方向。为了展示研究的发展过程并建立现有工作的联系,我们提供了一个精细化的分类体系,从相机模型和应用的角度对文献进行了分类。此外,针对每一类别,我们深入讨论了其内在关系、优势、区别及局限性。一个开源仓库将定期更新新研究成果和数据集。我们希望本综述能够促进该领域的未来研究。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述:用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++:基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位

非重复型扫描激光雷达的运动畸变矫正

快速紧耦合的稀疏直接雷达-惯性-视觉里程计

基于相机和低分辨率激光雷达的三维车辆检测

用于三维点云语义分割的标注工具和城市数据集

ROS2入门之基本介绍

固态激光雷达和相机系统的自动标定

激光雷达+GPS+IMU+轮速计的传感器融合定位方案







请到「今天看啥」查看全文