专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

Text2LiDAR:首个文本驱动的LiDAR数据生成模型 !

智驾实验室  · 公众号  ·  · 2024-08-15 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

复杂的交通环境和多样的天气条件使得激光雷达(LiDAR)数据的采集既昂贵又具有挑战性。迫切需要实现高质量和可控的LiDAR数据生成。

虽然使用文本进行控制是一种常见做法,但这一领域的研究却很少。为此,作者提出了Text2LiDAR,这是首个高效、多样且可由文本控制的LiDAR数据生成模型。

具体来说,作者设计了一种等距柱状 Transformer 架构,利用设计的等距柱状注意力以数据特性方式捕捉激光雷达特征。接着,作者设计了一个控制信号嵌入注入器,通过全局到聚焦的注意力机制高效地整合控制信号。

此外,作者还设计了一个频率调制器,帮助模型恢复高频细节,确保生成点云的清晰度。为了推动该领域的发展并优化文本控制生成性能,作者构建了nuLiDARtext,它为来自 850 个场景的  34,149 个激光雷达点云提供了多样的文本描述符。

在KITTI-360和nuScenes数据集上,作者对无控制和文本控制生成的各种形式进行了实验,证明了作者方法的优势。

项目可以在以下链接找到:https://github.com/wuyang98/Text2LiDAR。

1 Introduction

激光雷达(LiDAR)提供了关于周围环境的精确3D几何和距离信息,使机器人能够理解3D环境。这一功能使得LiDAR成为各种自主系统中最受欢迎的传感器之一,例如自动驾驶、无人测绘、室内探索等。然而,获取激光雷达数据并非易事。首先,激光雷达及其相关设备的价格相当高昂[2]。其次,在具有挑战性的情况下进行数据收集会带来安全和伦理问题。因此,高质量生成激光雷达点云正在成为前沿研究领域。

现有研究在控制条件下的激光雷达点云生成方面做出了巨大努力,这些生成仅使用单模态激光雷达数据。CARLA[14]从激光雷达的物理意义出发,模拟成像过程。由于物理模型之间存在显著差异,CARLA无法达到满意的性能。随后,Lidarsim[42]结合了基于物理和基于学习的模拟,能够实现更好的生成效果。然而,它需要提前扫描真实场景,这既费时又费力。为了解决这个问题,一些无需资产的方法采用了纯粹基于学习的方法,但它们无法适应更非线性的分布,限制了生成的多样性。后续方法通过在基于扩散的方法中使用U-Net[57, 58]作为去噪网络,取得了改进的结果。如图1上半部分所示,扩散过程可以刺激更复杂的数据分布,从而实现更令人满意的生成效果。

随着CLIP [55]和扩散模型[62, 23]的引入,诸如Text2image [29, 69, 76]和Text2video [67, 72]等文本控制生成任务正在迅速发展。然而,目前尚无研究探讨在LiDAR数据生成领域中采用文本引导的范式。这主要面临两大挑战:

(1)缺乏专为等距矩形图像和文本设计的可控生成架构。 目前领先的方法[50, 89]都采用了以U-Net [57, 58]为代表的卷积去噪架构。卷积架构有两个主要限制:首先,不适合具有圆形结构的等距矩形图像,卷积会破坏像素间的连续关系;其次,可伸缩性差,使得它效率低下且不便于适应来自不同模态的控制信号[24]。此外,现有方法[48, 50, 89]也忽略了等距矩形图像中的高频信息与点云物体结构之间的对应关系。这些因素激励作者探索如何构建一个统一的可控生成架构,使其兼容等距矩形图像和文本的多模态信号。

(2)缺乏用于对比学习的高质量文本-LiDAR数据对。 高质量配对的文本-LiDAR数据不仅需要描述LiDAR点云中的主要物体,还需要包含关于天气、光照、车辆姿态和环境结构等多种不同场景的描述,以形成全面描述。遗憾的是,目前主流的数据集[3, 5, 18, 37]无法提供高质量的配对数据。如何合理构建高质量的文本-LiDAR数据对,以适应快速发展的领域,也是作者致力于解决的重要问题。

在本论文中,为了解决挑战

(1) 作者提出了Text2LiDAR,一个高质量、可控文本的等距圆柱 Transformer ,用于生成激光雷达点云。如同往常的做法[48, 50, 89],作者将每个激光雷达扫描转换为等距圆柱图像,并根据其特性设计针对性的策略。作者首先设计了等距圆柱注意力(EA)和反向-EA(REA)用于特征提取和上采样。它们能够捕获任意两点之间的长距离关系,适应等距圆柱图像的圆形结构,并解决卷积引起的中断问题。具体来说,EA引入了傅里叶特征以保持3D位置信息,同时增加相邻标记间的差异以改善模型学习。此外,EA实施了不同尺度相互重叠的展开操作,以提取全局和局部特征,解决了由于等距圆柱图像的拉长性质导致的物体剧烈形变问题。然后,为了高效地执行控制信号融合,作者设计了一个通过全局到聚焦注意力机制的控制信号嵌入注入器(CEI),使模型具备文本可控能力。最后,作者设计了一个频率调制器(FM)来解决等距圆柱图像的平滑特性,并克服MLP结构的平滑倾向,确保生成的细节。

(2) 作者从nuScenes[5]的850个场景中构建了总共34,149对高质量文本-激光雷达数据对,命名为nuLiDARtext。基于nuScenes中的文本描述,作者纠正了大量的缩写、拼写错误和逻辑错误,并特别为激光雷达数据调整了文本。nuLiDARtext增强了文本生成结果的可靠性,并为该领域的发展做出了贡献。

主要技术贡献总结如下:

  • 作者提出了第一个有效的文本可控激光雷达点云生成框架Text2LiDAR,它充分考虑并适应了等距圆柱图像的物理特性。
  • 作者提出了两个新模块设计,包括CEI和FM。CEI可以通过全局到聚焦的注意力机制逐步稳健地将控制信号与主导特征融合,而FM解决了等距圆柱图像的平滑特性,并辅助模型训练,提升了生成质量。
  • 为了推进激光雷达点云生成领域,作者构建了nuLiDARtext,包含来自850个场景的34,149对文本-激光雷达数据对。

2 Related Work

点云生成。 LiDAR点云生成是点云生成领域的一个子集,它强调在自动驾驶场景中的点云生成[68, 33]。由于无需考虑周围环境,这两个任务之间存在强烈的相关性,因此点云生成的研究更早且更为广泛。早期方法[42, 14]通常依赖于物理模型,这使得它们受到LiDAR设备的限制,只能实现粗略的生成。多项工作[1, 4, 25, 32, 65, 86]利用了如生成对抗网络(GANs)[19]和变分自编码器(VAEs)[31]等代表性的生成模型来解决点云生成问题。此外,还提出了各种生成方法,取得了一定的效果。Wu等人[71]设计了一个双重生成器框架,逐步扩展了传统的GAN。SnowflakeNet[75]将生成过程建模为类似雪花的生长,每个点都是在原始点经过雪花点反卷积后生成的。Pointflow[82]引入了双层分布结构,不同层次代表不同类型的知识,使模型能够采样不同大小的点云。Lou等人[41]利用扩散技术生成点云,能够生成具有多种尺度的优质点云。Gecco[64]通过将稀疏图像特征投射到点云中,并在去噪过程中将其作为条件,提高了点云的几何一致性。通过利用蒸馏技术[35, 36, 22],Wu等人[73]将标准扩散模型的生成时间缩短为一步。

户外LiDAR点云非常不规则且稀疏。由于深度与LiDAR之间的相关性[80, 45, 81],在自动驾驶相关任务中,LiDAR点云通常被转换为等距圆柱投影图像,以克服点云的不规则性和稀疏性[43, 45, 6]。Nakashima等人[48, 49]将带有噪声的等距圆柱投影图像分解为去噪形式及其相应的丢弃概率,显著提高了性能。LiDARGen[89]设计了一种 Mask 策略来模拟LiDAR中的射线丢失,实现了多种尺寸的生成结果,并验证了使用扩散模型进行LiDAR数据生成的可行性。目前领先的工作R2DM[50]设计了一个更成熟的扩散框架,并取得了显著的性能提升。尽管取得了许多进展,生成的LiDAR点云的真实性和多样性仍然相对较低,缺乏具有强大特征融合能力的有效架构来进行文本控制,这仍然是一个未解决的问题。

视觉中的文本。 由于大量的配对图像-文本数据和巧妙简洁的模型设计,CLIP[55]能够提供语义丰富的联合文本-图像表示,并在众多视觉任务中展现出强大的能力,如低光照图像增强[78],开放词汇目标检测[34],图像风格转换[77]。得益于大量的大型配对图像-文本数据集和CLIP的跨模态表示能力,当前兴起的文本控制图像生成领域有效地将文本嵌入作为控制信号,引导整个图像生成过程,并取得了惊人的成果。所有这些都表明文本和图像特征可以有效地融合。得益于涉及图像-文本对的训练目标,CLIP生成的文本嵌入具有更丰富的语义信息,使其特别适合作为生成任务的控制条件[58]。

在3D视觉领域,配对数据集稀缺,与图像生成相比,3D生成的发展相对缓慢。一些方法利用预训练模型,并通过Nerf[44]或高斯喷射[28]实现了3D生成。然而,在复杂、真实和多样的3D环境中,这些方法并不适用于所有的3D生成任务。因此,构建针对特定3D生成任务量身定制的文本配对数据集,并在此基础上进行研究显得尤为迫切。这方面已经做出了一些努力。Chen等人[7]构建了一个文本-形状数据集,并在此基础上实现了文本控制的形状生成。Liu等人[39]通过解耦形状和颜色预测来进一步改进这项工作。然而,目前还没有相关的文本-LiDAR数据集和生成框架。本文旨在解决这些问题。

3 Method

Preliminary

本节介绍了去噪扩散概率模型(DDPM)的公式化及其损失函数。如图1所示,DDPM通过在时间步 上逐步添加噪声来破坏数据样本 ,直至其变为纯高斯噪声的前向扩散过程。同时包含一个反向过程,旨在预测每个时间步的噪声,并将纯高斯噪声转换回数据 。具体来说,在时间步 ,作者可以通过 获得带噪声的样本 ,其中 可以重参化为: ,且 是随时间步 变化的噪声。 是依赖于时间步 的超参数,遵循 -余弦调度[50],作者设定 。在假设 的前提下,获取中间带噪声样本 的过程可以描述为 ,其中$0\leq s

在获得带噪声样本 后,作者需要设计一个去噪器Text2LiDAR 来预测每个时间步 的噪声 。然后,可以通过方程1获得去噪结果。对每个时间步 完成整个去噪过程后,作者可以得到最终的生成结果。在训练过程中,作者使用均方误差(MSE)损失函数:

其中 表示可学习参数。按照惯例[50],作者的去噪器同样依赖于 。训练完成后,作者可以通过递归评估 的过程,从 ,获得最终的生成结果。

Text2LiDAR Denoising Network

图2展示了作者Text2LiDAR去噪网络的架构。在每一个时间步,Text2LiDAR接收一个带有噪声的等距矩形图像







请到「今天看啥」查看全文