专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
杭州本地宝  ·  外地户口在杭州结婚需要居住证吗? ·  昨天  
杭州本地宝  ·  杭州打工人有口福了!开工优惠美食汇总→ ·  昨天  
余杭时报  ·  定了!2月15日开始! ·  2 天前  
余杭发布  ·  开工!余杭掀起重大项目建设热潮 ·  3 天前  
杭州本地宝  ·  杭州公积金账户的钱可以全额提取吗? ·  4 天前  
51好读  ›  专栏  ›  3D视觉工坊

首个Linear RNN-based 通用3D检测框架LION, 全部SOTA!

3D视觉工坊  · 公众号  ·  · 2024-08-12 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

本次分享我们邀请到了华中科技大学在读博士 刘哲 为大家详细介绍他们的工作 :LION. 如果您有相关工作需要分享,欢迎文末联系我们

论文链接 https://arxiv.org/abs/2407.18232
项目链接 https://happinesslz.github.io/projects/LION/
代码链接 https://github.com/happinesslz/LION

直播信息

时间

2024年 8月12日 (周一) 19:00

主题

首个Linear RNN-based 通用3D检测框架LION, 全部SOTA!

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3DCV视频号 也将同步直播

嘉宾介绍

刘哲

华中科技大学博士在读,导师为白翔教授。当前的主要研究方向为:三维检测与跟踪,端到端自动驾驶,世界模型等。在顶级会议和期刊TPAMI,TIP,NeurIPS,ICCV,ECCV,AAAI,ICRA等,发表了10多篇论文,其中代表作有TANet, EPNet,EPNet++。谷歌学术总引用量1160+。

个人主页 ttps://happinesslz.github.io/

直播大纲

  1. 主流3D检测框架
  2. 基于Linear RNN-based的三维目标检测(LION, Arxiv 2024)
  3. 基于DETR方式的三维目标检测(SEED, ECCV 2024)
  4. 未来与展望

参与方式

这篇文章干了啥?

三维物体检测作为现代三维感知领域的核心技术,其在导航机器人和自动驾驶汽车等领域中具有广泛应用。近年来,基于Transformer的特征提取器在自然语言处理和二维视觉任务中取得了显著进展,通过灵活地建模长距离关系。为了将这一成功经验扩展到三维物体检测领域并应对高计算成本的挑战,研究人员提出了创新方法,如将点云划分为pillar并在局部2D窗口中进行pillar特征交互的窗口注意力机制(例如SST和SWFormer)。但是Transformer在建立长距离关系模型时,其计算成本为输入特征序列长度呈现二次方的关系, 因此,在大规模三维点云感知任务(如三维物体检测)中的优势往往受到限制。然而,现有方法由于计算资源限制,通常只能处理较小group的特征,无法充分发挥Transformer模型在长距离关系建模中的潜力。长距离关系的建模对于在大规模数据集上实现三维感知任务的基础模型至关重要。相比之下,Linear RNN 的计算复杂度较低,适用于远距离建模。在大语言模型(LLM)和二维视觉任务领域,一些具有线性计算复杂度的代表性线性RNN操作符如Mamba和RWKV已经展示出与Transformer相媲美的性能,尤其在处理长序列时表现出色。为了实现这一目标,本文提出了一个基于Linear Group RNN(即对grouped特征执行Linear RNN)的简单而有效的三维物体检测框架,称为 LION。与基于Transformer的方法相比,LION 的关键特性是允许在更大的group中进行充分的特征交互。LION具有如下优势:

  • LION是一种通用的基于Linear RNN的3D检测框架,支持各种前沿的Linear RNN 算子(例如 RetNet、RWKV、Mamba、xLSTM 和 TTT);
  • LION在 Waymo、nuScenes、Argoverse V2 和 ONCE 大场景自动驾驶数据集上取得了SOTA的3D检测性能;
  • 目前LION中涉及的所有模型,均能够在24G显存的RTX 3090/4090显卡上进行训练,从而保证大多数研究机构或者高校能够训练我们的LION模型;
  • LION在推理的时候,不再受限于训练时基于window划分所设置的group大小,适当地调整group的大小,对最终模型的性能影响很小。

下面一起来阅读一下这项工作~

Linear RNN

这篇论文探讨了线性循环神经网络在三维物体检测中的应用。最初,RNN被开发用于解决自然语言处理中的问题,如时间序列预测和语音识别,有效捕捉序列数据中的时间依赖关系。近年来,为了克服Transformer的二次计算复杂性,研究人员取得了显著进展,提出了时间并行化、数据依赖的线性RNN模型,如Mamba、RWKV、RetNet等。这些模型保持了线性的计算复杂度,同时具备高效的并行训练能力,并且在性能上能够与甚至超过Transformer模型。由于其可扩展性和高效性,线性RNN在不同领域的应用日益重要,包括视觉任务,已有研究证明其潜力。因此,本文旨在探索如何利用线性RNN有效地建模三维物体检测中的长距离关系。

LION的方法实现

LION的核心思想在于利用线性RNN来构建长距离建模的三维目标检测器,以避免将体素特征划分为小的组和Transformer在计算中的平方时间复杂度,来获得更好地检测性能。该论文首先提出了使用更大的group来进行体素划分,更好地适应了线性RNN的对于长序列建模的能力和线性复杂度的优势。其次,该论文为了解决三维目标检测中,在体素合并的过程中存在信息缺失的情况,提出了一种新的特征扩散点的方式。最后,为了可兼容很多高性能的线性RNN模型,该论文提出了一种全新的基于线性RNN的三维目标检测框架。

总体框架

该论文提出了基于线性RNN的模型框架,名为LION,用于在窗口化的框架中对分组特征执行线性RNN,可以将数千个体素(比之前的方法的数量多数十倍)进行特征交互。LION的流程如图所示,包括一个3D骨干网络、一个BEV骨干网络和一个检测头部,与大多数基于体素的3D检测器保持一致的pipeline。本文的贡献在于基于线性RNN设计的3D骨干网络。

图1 LION的整个pipeline**

3D稀疏窗口划分

在该论文中,三维窗口划分是为了在LION模块中实现有效的特征交互而进行的预处理步骤。首先,我们将点云转换为包含L个体素的数据表示。接着,我们将这些体素划分为形状为 的非重叠三维窗口,其中 分别表示窗口沿X轴、Y轴和Z轴的长度、宽度和高度。然后,我们按照X轴和Y轴对体素进行排序,以便进行窗口划分。我们将排序后的体素分成大小为K的等大小分组,利用了线性组RNN操作符的线性计算复杂度,使我们能够使用更大的分组大小K,从而实现有效的长距离特征交互。

LION Block

LION Block是LION的核心组件,包括建模long-range relationship的LION层,用于捕捉局部3D空间信息的3D空间特征描述子,Voxel Merging 和 Voxel Expanding,如图所示。此外,LION Block是一个层次结构,可以更好地提取多尺度特征,以应对不同大小3D对象之间的差距。接下来,将介绍LION块的每个部分。

图2 LION Block的结构

LION Layer 和 3D空间特征描述子

如图3(c)所示,LION Layer在LION块中应用,利用线性分组RNN操作符通过对不同的窗口划分进行特征交互,来模拟组内特征之间的long-range relationship。如图3(d)所示,LION用一个子流形卷积、一个LayerNorm和一个GELU组成3D spatial feature descriptor来增强局部空间信息。

图3 LION Layer和3D空间特征描述子的结构

Voxel Merging 和 Voxel Expanding

LION为了获得多尺度特征,使用了一个上采样下采样的层次化结构。LION分别采用Voxel merging 和 Voxel expanding 用来下采样和上采样。Voxel Merging中计算并保留Voxel合并的索引,在voxel expanding中用之前保留的索引逆变换回去。

图4 Voxel Merging 和 Voxel Expanding操作示意图

Voxel Generation

由于在体素合并的时候存在信息损失,LION利用了线性RNN的自回归能力进行Voxel 生成来解决这个问题。LION先计算得到的体素特征在通道维度上的平均值,然后通过选择其中的Top K的高响应区域作为待扩散区域。LION借助线性RNN的自回归能力,使得模型能够自适应地生成扩散的特征。针对于扩散点,选择水平方向上四个不同方向的偏移进行扩散。针对于扩散的点,直接将特征赋零。这些扩散的体素特征可以通过后续的线性RNN进行有效生成。







请到「今天看啥」查看全文