专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

新增了近百场顶会论文讲解，涉及SLAM/三维重建/位姿估计/具身智能/自动驾驶等方向

3D视觉工坊 · 公众号 · 科技创业科技自媒体 · 2024-08-24 00:00

正文

今天有粉丝问：

加入 「3D视觉从入门到精通」知识星球 ，可以学习最新顶会论文或最新前沿技术吗？有最新顶会论文作者讲解吗？

借此机会，在这里给大家盘点一下星球内部近期新增的顶会论文讲解，因篇幅有限，仅作部分展示。

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

扫码加入学习，圈里有高质量教程资料、可答疑解惑、助你高效解决问题

1、CVPR2024满分论文！即插即用的6D物体姿态估计大模型 FoundationPose ( BOP排行榜第一名算法)

大纲

6D物体姿态问题回溯
相关论文和SOTA方法简介
目前领先算法FoundationPose论文讲解
代码和用法讲解

2、CVPR'24 开源|NeRF-SLAM新SOTA：请任意选择你的高效神经表征和渲染方程！

大纲

NeRF 在 SLAM 问题中的应用回顾
相关论文简介
NeRF 到底是如何影响SLAM的表现的：一个统一分析框架
代码简介

3、中科院最新CityGaussian：VR/AR时代的城市重建新标杆

大纲

三维重建问题与算法回顾
大场景重建相关论文和SOTA方法简介
目前领先算法CityGaussian论文讲解

4、CVPR'24 | XScale-NVS: 基于哈希特征流形的大场景跨尺度高分辨神经渲染SOTA

大纲

神经渲染现有方法简介
XScale-NVS论文详解
代码、数据用法讲解

5、DistGrid：基于分布式神经辐射场阵列的大规模场景重建

大纲

大规模场景渲染现有方法简介
DistGrid论文详解

6、CVPR'24 | I'M HOI：拥抱多模态！融合视觉惯性感知，精准捕捉人物交互!

大纲

动作捕捉与人物交互研究背景
I'M HOI研究动机
I'M HOI论文算法详解
I'M HOI论文数据详解

7、ICLR'24 开源 | DiffTF：首个基于3D感知Transformer的3D物体生成最新SOTA!

大纲

3D物体生成现有方法简介
DiffTF论文详解
实验细节、代码、数据用法讲解

8、CVPR'24 | KTPFormer: 3D人体姿态估计SOTA! 在Transformer下即插即用涨点！

大纲

3D人体姿态估计现有方法简介
CVPR2024论文KTPFormer详解

9、ICML'24开源 | LEO：首个三维世界中的具身通用智能体

大纲

研究背景与动机
具身通用智能体: LEO
三维指令微调数据集: LEO-align & LEO-instruct
实验结果与demo展示

10、TTIC最新提出 | 性能达到了98.4%！Transcrib3D：基于大语言模型三维指称表达理解SOTA

大纲

三维指称表达理解的问题与现行方法
Transcrib3D方法介绍

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

扫码加入学习，圈里有高质量教程资料、可答疑解惑、助你高效解决问题

11、清华最新！无人机飞行速度建模 | Localization matters too: 定位误差如何影响无人机飞行速度

大纲

无人机建模现有方法简介与意义
Localization matters too 论文详解
清华大学电子系空地协同云测试场

12、CVPR'24 Hightlight | GP-NeRF: 基于上下文感知的通用语义NeRF！

大纲

语义神经渲染现有方法简介
GP-NeRF论文讲解
未来展望

13、当MVS遇上Gaussian | MVSGaussian: 快速、可泛化的高斯重建框架！

大纲

可泛化的新视图合成方法回顾
MVSGaussian论文详解

14、CVPR'24 Oral | Waymo新SOTA！纯稀疏检测器SAFDNet的前世今生！

大纲

相关工作回顾
HEDNet方法介绍
SAFDNet方法介绍
实验结果
交流讨论

15、SIGGRAPH'2024 | RTG-SLAM：基于3DGS的大尺度场景实时三维重建

大纲

RGB-D SLAM现有方法回顾
RTG-SLAM论文详解
后续研究方向的讨论

16、大场景重建最新SOTA | DoGaussian：分布式训练3DGS，训练速度提升6倍以上，实现高质量渲染

大纲

大规模重建现有方法简介
DoGaussian论文详解
未来工作、展望
讨论交流

17、港科大最新 | 3D目标检测新SOTA，APNovel提升140%

大纲

NeurIPS2023工作CoDA详解
最新拓展工作CoDAv2详解
代码、数据用法简介
论交流

18、重磅开源SA-GS：重新定位最新大场景3D重建SOTA！

大纲

几何重建的问题描述和好用的dataset
以几何重建为核心的算法回顾和常见问题以SuGaR和2DGS为例
为什么语义信息能够帮助几何重建，SA-GS 算法简介
未来几何重建有什么挑战，还有什么方向值得深挖

19、CVPR'24 | Symphonies：基于实例级建模的3D场景占用预测新SOTA

大纲

3D 语义场景补全/场景占用预测现有方法简介
Symphonies 论文详解
讨论交流

20、CVPR'24 开源| OMG-Seg: Beyond SAM，一种统一的图像，视频，开集，交互式的分割模型

大纲

现有的主流分割技术回顾，包括SAM以及open-set、video segmentation等
我们的OMG-Seg的技术细节
实验结果展示和分析
OMG-Seg的应用扩展：OMG-LLaVA
未来工作讨论

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

扫码加入学习，圈里有高质量教程资料、可答疑解惑、助你高效解决问题

21、自驾场景快速训练！CarDreamer：首个开源世界模型自动驾驶平台

大纲

现有的基于World Model的强化学习介绍
CarDreamer平台介绍
成果展示，代码用法、平台结构介绍
未来工作讨论

22、上汽零束 | NeRO: 基于隐式神经网络的道路重建

大纲

道路重建现有方法简介
NeRO论文详解

23、Co-driver: 用多模态大模型辅助场景理解和驾驶风格的自动驾驶助手

大纲

当前的一些以大模型为基础的端到端解决法案
用于多模态大模型微调的数据集采集
在Carla中连接多模态大模型进行仿真实验

24、卡内基梅隆大学 | DarkGS: 移动光源3DGS!从泰坦尼克号这一幕说起

大纲

3D Gaussian Splatting与相关背景
DarkGS论文解读
代码讲解
未来方向展望与讨论

25、上交开源 | 再现物理世界的通路：由三维重建到物理仿真

大纲

自动驾驶场景的高效三维重建
基于视觉物理的动力学推断与物理真实的动态生成

26、Adobe Research | 零样本3D重建：无需真实数据也能生成逼真3D模型

大纲

Large Reconstruction Model (LRM) 简介
LRM-Zero论文详解

27、CVPR 2024 Highlight！三维生成4.5k星开源项目 | Wonder3D单张图片变高质量三维

大纲

三维生成现有方法简介
Wonder3D论文详解
代码、数据用法讲解

28、大模型时代下的端到端自动驾驶

大纲

如何实现自动驾驶大模型
纯视觉自动驾驶的发展脉络
以物体为中心的三维场景表示（GaussianFormer、SpatialFormer, ECCV 2024）
基于世界模型的端到端自动驾驶（GenAD、OccWorld, ECCV 2024）

29、首次解锁CARLA V2全场景！基于隐世界模型的高效强化学习自驾模型

大纲

CARLA V2闭环仿真评测基准简介
基于隐世界模型的强化学习方案简介
自驾规控问题特点及方案应用剖析
端到端评测生态思考

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

扫码加入学习，圈里有高质量教程资料、可答疑解惑、助你高效解决问题

30、CVPR'24&ECCV'24 | 上下文模型如何将3D表征压缩近百倍！3D表征压缩技术的新SOTA！

大纲

探索上下文模型对NeRF压缩的设计
探索上下文模型对3DGS压缩的设计
分别介绍相关背景及技术实现
性能展示

31、CVPR'24开源 | 吊打一切VINS！又快又好的视觉惯性导航系统！

大纲

Introduction
Motivation
Methodology
Experiments
Conclusion
Further Work

32、英伟达 | OmniDrive: 基于稀疏查询的三维自驾VLM框架

大纲

基于稀疏查询的3D自动驾驶系统
自动驾驶3D多模态数据集
自动驾驶3D多模态模型

33、Co-Occ: 显式特征融合与体渲染联合优化多模态三维语义占用预测方法

大纲

多模态3D语义占用问题回溯
相关论文和SOTA方法简介
Co-Occ论文讲解

34、MM-Gaussian: 多模态室外3DGS SLAM

大纲

新增了近百场顶会论文讲解，涉及SLAM/三维重建/位姿估计/具身智能/自动驾驶等方向

正文

1、CVPR2024满分论文！即插即用的6D物体姿态估计大模型 FoundationPose ( BOP排行榜第一名算法)

2、CVPR'24 开源|NeRF-SLAM新SOTA：请任意选择你的高效神经表征和渲染方程！

3、中科院最新CityGaussian：VR/AR时代的城市重建新标杆

4、CVPR'24 | XScale-NVS: 基于哈希特征流形的大场景跨尺度高分辨神经渲染SOTA

5、DistGrid：基于分布式神经辐射场阵列的大规模场景重建

6、CVPR'24 | I'M HOI：拥抱多模态！融合视觉惯性感知，精准捕捉人物交互!

7、ICLR'24 开源 | DiffTF：首个基于3D感知Transformer的3D物体生成最新SOTA!

8、CVPR'24 | KTPFormer: 3D人体姿态估计SOTA! 在Transformer下即插即用涨点！

9、ICML'24开源 | LEO：首个三维世界中的具身通用智能体

10、TTIC最新提出 | 性能达到了98.4%！Transcrib3D：基于大语言模型三维指称表达理解SOTA

11、清华最新！无人机飞行速度建模 | Localization matters too: 定位误差如何影响无人机飞行速度

12、CVPR'24 Hightlight | GP-NeRF: 基于上下文感知的通用语义NeRF！

13、当MVS遇上Gaussian | MVSGaussian: 快速、可泛化的高斯重建框架！

14、CVPR'24 Oral | Waymo新SOTA！纯稀疏检测器SAFDNet的前世今生！

15、SIGGRAPH'2024 | RTG-SLAM：基于3DGS的大尺度场景实时三维重建

16、大场景重建最新SOTA | DoGaussian：分布式训练3DGS，训练速度提升6倍以上，实现高质量渲染

(adsbygoogle = window.adsbygoogle || []).push({}); 17、港科大最新 | 3D目标检测新SOTA，APNovel提升140%

18、重磅开源SA-GS：重新定位最新大场景3D重建SOTA！

19、CVPR'24 | Symphonies：基于实例级建模的3D场景占用预测新SOTA

20、CVPR'24 开源| OMG-Seg: Beyond SAM，一种统一的图像，视频，开集，交互式的分割模型

21、自驾场景 快速训练！CarDreamer：首个开源世界模型自动驾驶平台

22、上汽零束 | NeRO: 基于隐式神经网络的道路重建

23、Co-driver: 用多模态大模型辅助场景理解和驾驶风格的自动驾驶助手

24、卡内基梅隆大学 | DarkGS: 移动光源3DGS!从泰坦尼克号这一幕说起

25、上交开源 | 再现物理世界的通路：由三维重建到物理仿真

26、Adobe Research | 零样本3D重建：无需真实数据也能生成逼真3D模型

27、CVPR 2024 Highlight！三维生成4.5k星开源项目 | Wonder3D单张图片变高质量三维

28、大模型时代下的端到端自动驾驶

29、首次解锁CARLA V2全场景！基于隐世界模型的高效强化学习自驾模型

30、CVPR'24&ECCV'24 | 上下文模型如何将3D表征压缩近百倍！3D表征压缩技术的新SOTA！

31、CVPR'24开源 | 吊打一切VINS！又快又好的视觉惯性导航系统！

32、英伟达 | OmniDrive: 基于稀疏查询的三维自驾VLM框架

33、Co-Occ: 显式特征融合与体渲染联合优化多模态三维语义占用预测方法

34、MM-Gaussian: 多模态室外3DGS SLAM

请到「今天看啥」查看全文

17、港科大最新 | 3D目标检测新SOTA，APNovel提升140%

21、自驾场景快速训练！CarDreamer：首个开源世界模型自动驾驶平台