作者:HT | 来源:3DCV
在公众号「
3DCV
」后台,回复「
原论文
」即可获取论文pdf和代码。
添加微信:dddvisiona,备注:目标检测,拉你入群。文末附行业细分群。
0. 笔者个人体会
文章的主要动机是解决点云数据处理中的挑战性问题。点云数据具有复杂的非欧几里德结构,包含了全局和局部的几何信息,而现有的方法在提取点云的复杂几何结构以进行分类任务时存在局限。因此,作者的动机是提出一种新的方法,可以更有效地捕捉点云数据的多尺度几何信息,从而提高点云分类的性能。
核心创新点是引入了多尺度几何感知
Transformer
(
MGT
)模型。
MGT
模型通过以下方式创新:
-
多尺度贴片分割:将点云数据分成不同尺寸的多尺度小块,以便探索点云的多尺度结构。
-
几何感知的补丁内表示:引入了一个局部特征提取器(
SLFE
)模块,利用球面映射来提取每个补丁的几何信息。
-
几何感知的补丁间表示:使用基于测地线距离的自注意机制来捕捉补丁之间的全局特征。
该算法方法的好处:
-
提高了点云分类任务的性能,使其在主流基准测试中具有竞争力。
-
可以更好地捕捉点云的多尺度几何结构,从而提高了点云数据的表示能力。
-
具有较强的鲁棒性,对于点云数据的缺失也能保持较好的性能。
-
引入了更合理的几何感知方法,以适应点云数据的非欧几里德结构。
-
为点云数据处理领域带来了一种新的方法,可能有助于解决其他点云相关任务的挑战。
1. 贡献
• 多尺度贴片分割
Transformer
。
MGT
将点云数据分成不同尺寸的多尺度小块,即从小块到大块,并将其送入
Transformer
中,探索点云结构的多尺度。
• 几何感知的补丁内表示。本文提出了一个
SLFE
模块,该模块增强了补丁内的局部特征,并为每个补丁输出固定长度的向量。在
SLFE
模块中,提出了一种新的算子,称为球体映射,用于捕获斑块邻居的局部几何结构,即斑块中点之间的夹角。
• 几何感知的补丁间表示。采用了一种新的基于计算测地线距离的自注意机制来更好地捕捉斑块之间的全局特征。
2.总结
为了探索隐藏在点云中的复杂几何结构,本文提出了一种新颖的
Transformer
框架
MGT
,用于点云对象的分类。
首先,将数据划分为不同尺寸的多尺度斑块,即从小尺寸到大尺寸的斑块,以探索点云结构的多个尺度。然后,构建了一个几何感知
Transformer
模型,该模型利用两级几何结构,即每个块内的欧几里得几何结构和点云块间的非欧几里得几何结构。前者是通过与新颖的球体映射模块关联的本地共享特征提取器来实现的,而后者是使用基于流形的自注意力模块来实现的。
与主流方法相比,该方法在点云识别上的准确率表现出较强的竞争力,并且面对数据点丢失具有良好的鲁棒性。
更详细的论文解读,请参考近期微信公众号「3D视觉工坊」即将发布的论文解读。
—END—
高效学习3D视觉三部曲
第一步 加入行业交流群,保持技术的先进性
目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶方向,细分群包括:[
工业方向
]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群;[
SLAM方向
]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群;[
自动驾驶方向
]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。[
三维重建方向
]NeRF、colmap、OpenMVS等。除了这些,还有求职、硬件选型、视觉产品落地等交流群。大家可以添加小助理微信: dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。
添加小助理微信:cv3d007, 拉你入群
第二步 加入知识星球,问题及时得到解答
针对3D视觉领域的视频课程(三维重建、三维点云、结构光、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、源码分享、知识点汇总、入门进阶学习路线、最新paper分享、
疑问解答
等进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业、项目对接为一体的铁杆粉丝聚集区,6000+星球成员为创造更好的AI世界共同进步,知识星球入口:
「3D视觉从入门到精通」
学习3D视觉核心技术,扫描查看,3天内无条件退款
高质量教程资料、答疑解惑、助你高效解决问题
第三步 系统学习3D视觉,对模块知识体系,深刻理解并运行
如果大家对3D视觉某一个细分方向想系统学习[从理论、代码到实战],推荐3D视觉精品课程学习网址:www.3dcver.com
科研论文写作:
[1]
国内首个面向三维视觉的科研方法与学术论文写作教程
基础课程:
[1]
面向三维视觉算法的C++重要模块精讲:从零基础入门到进阶
[2]
面向三维视觉的Linux嵌入式系统教程[理论+代码+实战]
[3]
如何学习相机模型与标定?(代码+实战)
[4]
ROS2从入门到精通:理论与实战
[5]
彻底理解dToF雷达系统设计[理论+代码+实战]
工业3D视觉方向课程:
[1]
(第二期)从零搭建一套结构光3D重建系统[理论+源码+实践]
[2]
保姆级线结构光(单目&双目)三维重建系统教程
[3]
机械臂抓取从入门到实战课程(理论+源码)
[4]
三维点云处理:算法与实战汇总
[5]
彻底搞懂基于Open3D的点云处理教程!
[6]
3D视觉缺陷检测教程:理论与实战!
SLAM方向课程:
[1]
深度剖析面向机器人领域的3D激光SLAM技术原理、代码与实战
[1]
彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战