最近ECCV 2024也公布录用论文名单了,录用率18%,比ECCV 2022录用率降低了10%。虽然更有挑战了,但入选获奖的含金量也直线上升。
这是因为ECCV是与ICCV和CVPR并称为计算机视觉“三大顶会”的国际会议之一,能被录用的论文质量都是在线的。而今年的更是炸裂,登顶了三维重建等多个领域,比如MVSGaussian,实现300+FPS渲染速度和13.3倍训练提速;还有HTCL,在多个基准测试中超过所有视觉方案。
从这些高质量成果的研究方向来看,投稿的热门主题主要有三维重建、图像处理、多模态大模型、3D视觉等领域,想发paper的同学可以参考一下。
为助力想要冲顶会的同学,我这次整理了
ECCV 2024这些热门方向的高质量论文
15篇
,全部都有开源代码,创新点也提炼好了,方便大家复现并找到自己的idea。
扫码
添加小享,
回复“
ECCV开源
”
免费获取
全部
论
文+代码合集
高斯溅射
MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo
方法:
本文研究了用于未知场景中新视角合成的高效通用高斯溅射方法。该方法利用需要进行预处理的三维高斯波及表示来表示场景,通过编码和解码过程来生成高斯参数。
MVSGaussian在单个RTX 3090 GPU上,与传统3D-GS相比,在实现更好的新视点合成的同时,具有类似的渲染速度(300+ FPS),且仅需 45 秒(约为 3D-GS 的 1/10)即可完成高质量的实时渲染。
创新点:
-
引入了一个新的通用高斯模型方法,该方法源自于多视图立体匹配和像素对齐的高斯表示。
-
提出了一种高效的混合高斯渲染方法,用于提高模型的泛化性能。
-
引入了一种一致性聚合策略,为快速的场景优化提供高质量的初始化。
MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images
方法:
论文介绍了一种高效的前馈三维高斯分布模型MVSplat,该模型通过稀疏多视角图像训练得到。研究团队构建了一种成本体积(cost volume)来利用多视角的对应信息进行更好的几何结构学习。与最新的方法pixelSplat相比,MVSplat使用的参数数量少10倍,推理速度快2倍,同时提供更高的外观和几何质量以及更好的跨数据集泛化能力。
创新点:
-
提出了一种基于代价体积的几何表示方法,通过在三维空间中进行平面扫描,构建了代价体积来存储不同深度候选点的跨视图特征相似性,从而为几何定位提供了有价值的几何线索。
-
MVSplat模型在RealEstate10K和ACID基准测试中取得了最先进的性能,并且具有最快的前向推理速度。
扫码
添加小享,
回复“
ECCV开源
”
免费获取
全部
论
文+代码合集
语义分割
Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively
方法:
作者将VLMs和SAM结合起来,实现对新类别的分割和识别的任务,填补了这一领域的研究空白,并提出了Open-Vocabulary SAM模型,通过联合训练和特征融合,实现了更好的分割和识别性能,能分割和识别 22,000 种类别,登顶3D重建。
创新点:
-
通过将SAM编码器的知识转移到CLIP编码器,实现了SAM和CLIP之间的双向知识传递。这种知识传递过程在一个轻量级的transformer-like adapter上执行,使用像素级的蒸馏损失将多尺度特征与SAM的表示进行对齐。
-
CLIP2SAM模块将来自冻结的CLIP编码器的知识传递到SAM解码器。为了实现这一目标,作者设计了一个特征金字塔适配器,并使用RoIAlign运算符与SAM解码器联合训练。
3D语义场景补全