点击下方
卡片
,关注
「3DCV」
公众号
选择
星标
,干货第一时间送达
作者:Lizhi Wang |编辑:3DCV
添加微信:dddvision,备注:方向+单位+昵称,拉你入群。文末附行业细分群
读者个人理解
这篇文章介绍了一个名为OMEGAS的框架,旨在从大规模场景中提取指定对象的网格。OMEGAS框架通过多步方法实现,首先使用SAM模型引导3DGS的分割,构建目标对象的基本3DGS模型。接着,利用大规模扩散先验(如Stable Diffusion)进一步优化3DGS模型的细节,特别是处理原始场景视图中的不可见或被遮挡的部分。然后,将3DGS模型重新渲染到场景视图中,实现准确的物体分割并有效移除背景。最后,将目标对象的图像和3DGS模型输入SuGaR模型中,进行进一步优化并提取最终网格。实验结果显示,OMEGAS在目标对象网格重建中具有显著的性能优势,特别是在纹理细节和抗遮挡性方面。
OMEGAS框架在从大场景中提取目标对象网格方面有哪些主要步骤?
OMEGAS框架在从大场景中提取目标对象网格的主要步骤包括:
-
高斯分割
:利用SAM模型进行初步的目标一致性分割,然后采用3D高斯溅射(3DGS)对多视图图像进行场景重建和分割,并通过分类损失和3D余弦相似度损失来优化分割结果。
-
目标高斯提取
:使用Grounding DINO模型选择目标对象,并提取对应的高斯表示。
-
高斯优化
:通过随机视角渲染目标高斯模型,并利用稳定扩散模型的SDS损失来优化目标高斯模型,以增强细节并填充原始视图的遮挡部分。
-
网格提取
:将优化的3DGS模型渲染到输入图像上,获得更精确的目标掩码,并将其与优化的3DGS模型一起输入SuGaR模型,以获得最终的目标网格。
在多个数据集上验证OMEGAS框架在目标对象网格提取方面的有效性,包括分割质量、网格质量以及遮挡鲁棒性等指标的评估。总的来说,OMEGAS框架通过多步迭代优化,实现了从大场景中精确提取目标对象的高质量网格。
在实现细节中,使用哪些损失函数来优化3DGS模型的分割结果?
-
分类损失
:利用渲染后的身份向量进行线性层处理,并通过交叉熵损失进行分类。
-
3D余弦相似度损失
:对采样得到的3D高斯进行余弦相似度计算,以提高3D一致性的分割效果。
-
-
总损失
:将上述损失函数进行加权求和,其中分类损失和3D余弦相似度损失分别对应权重系数
和
。
稳定扩散如何帮助OMEGAS框架优化3DGS模型并重建目标的遮挡部分?
-
渲染随机视角图像
:从随机视角渲染目标3DGS模型,以获得更全面的重建效果。
-
SDS损失优化
:利用稳定扩散的SDS损失来优化3DGS模型,并采用“一个物体的照片”作为提示,以优化目标高斯模型。
-
增强细节和遮挡部分
:稳定扩散的优化不仅提高了细节质量,而且有助于填充原始视图的遮挡部分,从而实现更全面的重建效果。
-
渲染补充图像
:将随机视角渲染的3DGS图像补充到SuGaR模型的输入中,以增强对遮挡部分的重建效果。
实验结果
-
分割质量
:在LERF-MASK数据集上,OMEGAS框架相较于Gaussian Grouping基准实现了更好的分割质量,并且具有更高的训练效率。
-
网格质量
:在比较实验中,OMEGAS框架相较于SuGaR和DreamGaussian基准展现了更好的网格细节和形状。
-
遮挡鲁棒性
:在可视化实验中,OMEGAS框架展示了对于遮挡和不可见部分的目标的重建效果。
-
Ablation研究
:Ablation研究表明,SDS优化能够提高遮挡部分的重建效果,而SuGaR优化可以减轻SDS的负面影响,从而提升整体质量。
总体来看,OMEGAS框架在分割质量、网格质量、遮挡鲁棒性等方面展现了明显的优越性。
总结
OMEGAS框架:旨在从大规模场景中提取特定对象的网格。该框架采用了多个步骤,并整合了多种技术方法,包括SAM、3DGS、Stable Diffusion和SuGaR模型。实验结果表明,OMEGAS在重建目标对象网格方面明显优于现有方法,尤其在细节纹理和遮挡鲁棒性方面表现突出。该框架在开放世界场景中为特定对象提供了高精度的网格提取能力,从而为AR、游戏等下游任务提供了更好的解决方案。
本文仅做学术分享,如有侵权,请联系删文。
3DCV技术交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉技术星球
3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、