专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

跨模态3D目标检测SOTA！易复现！

FightingCV · 公众号 · · 2024-10-30 09:00

正文

ICCV'23旷视科技创新工作Cross Modal Transformer(CMT)提出了—— 跨模态的 Transformer 将图像和点云数据作为输入，并且直接生成精确的 3D 检测框。 在nuScenes test数据集上达到了74.1%的NDS（单一模型的最先进技术），同时保持了快速的推理速度。 此外，整个跨模态的Transformer设计非常简单， 主要是它易于复现。

为了让大家更好的掌握跨模态3D目标检测器，并改进融合运用到自己的论文中，研梦非凡于10月31日晚（周四）， 邀请了来自 QStop50学校博士— 杨导师， 为大家独家详解 《超实用发论文方向！基于Transformer的3D 目标检测》 ，从跨模态Transformer的性能与贡献到3D目标检测、 重点讲解跨模态Transformer的算法研究以及实验 ，一文速通跨模态3D目标检测，复现论文，找创新点，轻松发论文！

👇🏻扫描二维码找助教0元预约直播课！

直播课内容预览

ICCV'23《Cross Modal Transformer: Towards Fast and Robust 3D Object Detection 》

一、论文摘要

CMT模型
无需显式视图转换
设计简洁易复现
多模态tokens的空间对齐
快推理速度，高准确率

二、研究背景

跨模态介绍
跨模态Transformer与SOTA性能的比较
跨模态Transformer的主要贡献

三、相关工作

基于相机的3D目标检测
基于LiDAR的3D目标检测
多模态的3D目标检测
基于Transformer的目标检测

👇🏻扫描二维码找助教0元预约直播课！

四、算法研究

跨模态Transformer的结构

跨模态变换器(CMT)架构
CMT通过建立不同模态间的位置对应关系

坐标编码模块（CEM）
图像的CE
点云的CE
位置引导的查询生成器
解码器和损失函数
基于Mask的训练和模型鲁棒性研究
讨论

CMT与FUTR3D在端到端建模动机上类似,但方法和效果完全不同
主要区别

五、实验结果

数据集和评估指标
实验细节
与最先进技术的比较
强大的鲁棒性
消融研究
分析

六、总结和展望

跨模态的Transformer
强大的性能且易于复现

👇🏻扫描二维码找助教0元预约直播课！

直播导师介绍

杨导师

杨导师，博士毕业于QStop50知名计算机名校。

博士期间研究方向：聚焦为计算机视觉，自然语言处理，高效的深度学习训练和推理方法，大语言模型轻量化与高效微调技术。

曾在多家公司担任算法研究员，并进行计算机视觉，高效模型压缩算法，多模态大语言模型的研究 ，包括模型量化，剪枝，蒸馏，编译以及高效稀疏化训练与推理。

在国际顶级会议CVPR，ICCV，EMNLP等发表13篇论文，并担任CVPR，ICCV，ECCV，ICML，ICLR，NeurIPS等重要会议和期刊的审稿人。

多项发明专利，指导学生有耐心，教学严谨，思维逻辑缜密，已经指导数十篇论文。

对于成果好的学生，帮助学生写推荐信和指导申请硕/博申请。

👇🏻扫描二维码找助教0元预约直播课！约导师meeting～

研梦非凡科研论文指导

科研论文idea，并非拍脑门就能产生，需要经过一遍遍做实验、跑代码、改模型、思路修正。研梦非凡专业论文指导，和研梦导师一起找idea，共同解决科研问题。 授之以渔——搭建论文写作框架，增删改查，针对性实验指导！哪里薄弱补哪里！

跨模态3D目标检测SOTA！易复现！

正文

直播课内容预览

一、论文摘要

二、研究背景

三、相关工作

四、算法研究

五、实验结果

六、总结和展望

直播导师介绍

研梦非凡科研论文指导

请到「今天看啥」查看全文