专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
山东省交通运输厅  ·  三名女生赶考路上的特别答卷——用行动书写青春担当 ·  9 小时前  
德州晚报  ·  降!降!降! ·  16 小时前  
财金学子  ·  线上职发 | ... ·  昨天  
鲁中晨报  ·  知名网红博主,被禁言! ·  昨天  
鲁中晨报  ·  戴手套!戴手套!致死率或达100% ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

基于Transformer的端到端跨模态3D目标检测器!易上手

自动驾驶之心  · 公众号  ·  · 2024-10-28 07:30

正文

ICCV'23旷视科技创新工作Cross Modal Transformer(CMT)提出了—— 跨模态的 Transformer 将图像和点云数据作为输入,并且直接生成精确的 3D 检测框 在nuScenes test数据集上达到了74.1%的NDS(单一模型的最先进技术),同时保持了快速的推理速度。 即使缺少 LiDAR,CMT也具有很强的鲁棒性。此外,整个跨模态的Transformer设计非常简单, 主要是它易于复现。

为了让大家更好的掌握跨模态3D目标检测器,并改进融合运用到自己的论文中, 研梦非凡于10月31日晚(周四), 邀请了来自 QStop50学校博士— 杨导师, 为大家独家详解 《超实用发论文方向!基于Transformer的3D 目标检测》 ,从跨模态Transformer的性能与贡献到3D目标检测、 重点讲解跨模态Transformer的算法研究以及实验 ,一文速通跨模态3D目标检测,复现论文,找创新点,轻松发论文!

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可免费领取200篇前沿论文(目标检测+大模型+多模态)


直播课内容预览

ICCV'23《Cross Modal Transformer: Towards Fast and Robust 3D Object Detection 》

一、论文摘要

  1. CMT模型
  2. 无需显式视图转换
  3. 设计简洁易复现
  4. 多模态tokens的空间对齐
  5. 快推理速度,高准确率

二、研究背景

  1. 跨模态介绍
  2. 跨模态Transformer与SOTA性能的比较
  3. 跨模态Transformer的主要贡献

三、相关工作

  1. 基于相机的3D目标检测
  2. 基于LiDAR的3D目标检测
  3. 多模态的3D目标检测
  4. 基于Transformer的目标检测

👇🏻扫描二维码找助教0元预约直播课!

凡预约即可免费领取200篇前沿论文(目标检测+大模型+多模态)

四、算法研究

  1. 跨模态Transformer的结构
  • 跨模态变换器(CMT)架构
  • CMT通过建立不同模态间的位置对应关系
  1. 坐标编码模块(CEM)
  2. 图像的CE
  3. 点云的CE
  4. 位置引导的查询生成器
  5. 解码器和损失函数
  6. 基于Mask的训练和模型鲁棒性研究
  7. 讨论
  • CMT与FUTR3D在端到端建模动机上类似,但方法和效果完全不同
  • 主要区别

五、实验结果

  1. 数据集和评估指标
  2. 实验细节
  3. 与最先进技术的比较
  4. 强大的鲁棒性
  5. 消融研究
  6. 分析

六、总结和展望

  1. 跨模态的Transformer
  2. 强大的性能且易于复现


👇🏻扫描二维码找助教0元预约直播课!

凡预约即可免费领取200篇前沿论文(目标检测+大模型+多模态)







请到「今天看啥」查看全文