专栏名称: 智能车情报局
聚焦智能汽车关键技术与创新产品
目录
相关文章推荐
网信西藏  ·  藏历新年期间,免费! ·  9 小时前  
网信西藏  ·  藏历新年期间,免费! ·  9 小时前  
西藏发布  ·  进出藏机票、火车票补贴来了! ·  12 小时前  
西藏发布  ·  进出藏机票、火车票补贴来了! ·  12 小时前  
重庆之声  ·  刚刚丨西藏日喀则发生地震 ·  2 天前  
西藏发布  ·  中央一号文件发布,这些人将直接受益! ·  2 天前  
51好读  ›  专栏  ›  智能车情报局

美团最新!FocusBEV:自标定+循环视图变换突破单目BEV极限

智能车情报局  · 公众号  ·  · 2024-11-22 18:30

正文

大会预告

12月5日-6日,2024中国生成式AI大会(上海站) 举办,30+位嘉宾已确认参会演讲。其中,银河通用机器人合伙人张直政将在大模型峰会进行演讲。上海科大助理教授&博导顾家远,国地共建具身智能机器人创新中心数据智能负责人李广宇,上海人工智能实验室青年科学家王泰,上交大在读博士、穹彻智能实习研究员吕峻将在具身智能技术研讨会进行分享,欢迎报名~


文章转载自公众号:自动驾驶Daily。本文只做学术/技术分享,如有侵权,联系删文。

01

写在前面&笔者的个人理解


鸟瞰图(BEV)分割旨在建立从透视图到俯视图的空间映射,并从单目图像中估计语义图。由于图像空间中BEV不可知特征的破坏,最近的研究在视图转换方面遇到了困难。为了解决这个问题,我们提出了一种新的FocusBEV框架,该框架由以下部分组成:(i)一个自标定的交叉视图变换模块,用于抑制BEV无关的图像区域,并在视图变换阶段聚焦于BEV相关区域;(ii)一个即插即用的基于自车运动的时间融合模块,用于利用存储库在BEV空间中的时空结构一致性;(iii)一个与占用无关的IoU损失,以减轻语义和位置的不确定性。实验证据表明,我们的方法在两个流行的基准上达到了最新的水平,即nuScenes上的mIoU为29.2%,Argoverse上的mIuU为35.2%。


总结来说,本文的贡献有三方面:
  • 1)我们提出了一种新的FocusBEV框架,该框架具有自标定的循环视图转换模块,通过循环转换方案抑制BEV不可知区域并聚焦于BEV相关区域。
  • 2)构建了一个基于即插即用自车运动的时间融合模块,用于在时空空间内对齐和聚合多个历史BEV特征。
  • 3) 引入了与占用无关的IoU损失,以解决BEV平面上的语义和位置不确定性。


02

相关工作回顾

从透视图(PV)到鸟瞰图(BEV)的转换是BEV分割任务中的一个关键问题。基于不同的视图转换策略,大多数单目边界元分割方法可大致分为三类:基于几何的方法、基于MLP的方法和基于Transformer的方法。
基于几何的BEV分割。 之前的工作通常倾向于使用数学映射,使用逆透视映射(IPM)将前视图像转换为俯视图像。然而,由于IPM强烈的平地假设,这些方法往往无法定位和区分地面上的物体,如行人和自行车。为了避免IPM引起的映射失真,最近的研究利用额外的深度将2D空间提升到3D。例如,Philion等人利用学习到的深度分布将2D像素提升到3D点,并将其放置到BEV平面。同样,Dwivedi等人应用估计的深度将2D特征转换为BEV特征。
基于MLP的BEV分割。 一些工作倾向于应用多层感知器(MLP)来隐含地利用图像空间和边界元法空间之间的视图变换。Pan等人和Li等人在平坦图像特征上采用了两层MLP,从而将PV特征转化为BEV特征。Roddick等人和Saha等人提出了逐列MLP,以折叠金字塔图像特征的高度轴,并沿BEV特征的深度轴扩展。Yang等人提出了一种跨视图变换器,以利用视图之间的循环一致性。此外,Zhou等人设计了一个双分支网络,分别学习具有几何信息和全局上下文的混合特征变换。
基于Transformer的BEV分割。 一些工作致力于通过变换结构将图像空间映射到BEV空间。例如,Saha等人首先引入了一种编码器-解码器转换器,将图像平面中的垂直扫描线转换为BEV平面上的极性射线。Gong等人提出了一种两阶段视图变换框架,采用编码器-解码器变换器来增强初始几何感知BEV特征的列式关注。然而,这些方法往往无意中忽视了视图转换中BEV不可知特征的潜在破坏。

03

本文方法


本文介绍了一种新的FocusBEV框架,该框架结合了一个自标定的循环视图变换模块和一个基于自车运动的时间融合模块,用于前视单目BEV分割,分别关注BEV空间中的BEV相关空间映射和时空聚合,如图2所示。


Self-calibrated Cycle View Transformation


BEV分割的关键问题是在图像空间中选择BEV相关特征区域,并在图像空间和BEV空间之间建立精确的语义映射。为了解决这个问题,我们将列式Transformer解码器整合到视图变换中,以构建不同视图之间的全局空间映射,并提出了一种新的循环视图变换方案来抑制BEV不可知特征,从而增强BEV表示。
重新审视用于视图转换的Transformer解码器。在自然语言处理领域,transformers中的传统解码器在不同长度的1D语言句子之间建立全局翻译关系。受语言处理的启发,2D图像可以通过压平像素进行位置编码,折叠成1D序列,几何视图变换可以被视为序列到序列的转换问题。考虑到图像平面中笛卡尔列和BEV平面中极性射线之间的粗略几何对应,我们在逐列像素上而不是所有图像像素上应用变换器解码器进行视图变换,这可以有效地减轻视图变换的不确定性,降低注意力的复杂性。
使用Cycle View Transformer专注于BEV。图像中的大部分区域(如天空和建筑物)与道路布局和交通参与者无关,这促使我们抑制这些与BEV无关的特征,并在视图转换中关注BEV相关的特征。为此,我们提出了一种自标定方案,以抑制BEV不可知特征,并通过循环视图变换聚焦BEV相关特征,如图3所示。我们首先应用上述列式PV-BEV变换来获得初始极性BEV特征,然后采用循环BEV-PV-BEV转换来获得BEV聚焦PV特征,并使用隐式BEV聚焦引导来校准视图变换。


Ego-motion-based Temporal Fusion


为了减轻单目BEV分割中固有的间歇性遮挡,我们采用了基于自车运动的对齐和时间聚合,如图4所示,利用包含BEV历史特征和相应自车运动信息的记忆库来利用BEV空间中的时空结构一致性。通过执行这些显式对齐和聚合,我们提出的时间融合模块可以加速收敛,有效减轻多帧之间遮挡的干扰,并受益于静态类别(如人行横道和可驾驶区域)的时空一致结构以及动态类别(如汽车和行人)的运动上下文信息。


04

实验结果



05

结论


本文提出了一种新的用于鸟瞰图分割任务的FocusBEV框架。首先,我们提出了一种自校准的循环视图变换模块,用于抑制BEV不可知的图像区域,并在视图变换中关注BEV相关区域。然后,采用基于自车运动的时间融合模块,利用记忆库利用边界元法空间中的时空结构一致性。最后,我们引入了一种与占用无关的IoU损失,以解决BEV平面上的语义和位置不确定性。实验证据表明,我们提出的方法在两个流行的基准上达到了最新的水平,即在nuScenes上达到了29.2%,在Argoverse上达到了35.2%。

参考

[1] Focus on BEV: Self-calibrated Cycle View Transformation for Monocular Birds-Eye-View Segmentation






请到「今天看啥」查看全文