0. 论文信息
标题:SAMPart3D: Segment Any Part in 3D Objects
作者:Yunhan Yang, Yukun Huang, Yuan-Chen Guo, Liangjun Lu, Xiaoyang Wu, Edmund Y. Lam, Yan-Pei Cao, Xihui Liu
机构:The University of Hong Kong、VAST
原文链接:https://arxiv.org/abs/2411.07184v1
代码链接:https://github.com/Pointcept/SAMPart3D
官方主页:https://yhyang-myron.github.io/SAMPart3D-website/
1. 导读
三维零件分割是三维感知中一项关键且具有挑战性的任务,在机器人、三维生成和三维编辑等应用中起着至关重要的作用。最近的方法利用强大的视觉语言模型(VLMs)进行2D到3D的知识提炼,实现零镜头3D零件分割。然而,这些方法由于依赖文本提示而受到限制,这限制了对大规模未标记数据集的可扩展性和处理部分歧义的灵活性。在这项工作中,我们介绍了SAMPart3D,这是一个可扩展的零镜头3D部件分割框架,它可以在多个粒度上将任何3D对象分割成语义部件,而不需要预定义的部件标签集作为文本提示。为了实现可扩展性,我们使用文本不可知的视觉基础模型来提取3D特征提取主干,允许扩展到大型未标记的3D数据集,以学习丰富的3D先验知识。为了灵活性,我们提取比例条件零件感知的三维特征,用于多粒度的三维零件分割。一旦从比例调节的部件感知3D特征中获得分割的部件,我们使用vlm基于多视图渲染为每个部件分配语义标签。与以前的方法相比,我们的SAMPart3D可以扩展到最近的大规模3D对象数据集Objaverse,并处理复杂的非普通对象。此外,我们贡献了一个新的3D零件分割基准,以解决现有基准中对象和零件缺乏多样性和复杂性的问题。实验表明,我们的SAMPart3D明显优于现有的零镜头3D零件分割方法,并可以促进各种应用,如零件级编辑和交互式分割。
2. 引言
三维部件分割是一项基础的三维感知任务,对于机器人操作、三维分析与生成、部件级编辑和风格化等多种应用领域至关重要。
过去几年中,数据驱动的全监督方法在封闭集三维部件分割基准上取得了卓越成果。然而,由于带有部件标注的三维数据数量和多样性受限,这些方法仅限于分割简单物体。尽管最近发布了一些大规模三维物体数据集,但为如此庞大的三维资源获取部件标注既耗时又费力,这阻碍了三维部件分割复制二维分割中数据扩展和模型扩展的成功。
为了实现无标注三维数据情况下的零样本三维部件分割,需要解决几个挑战。第一个也是最重要的挑战是,如何在没有三维部件标注的情况下泛化到开放世界的三维物体。为解决这一问题,近期工作利用了预训练的二维基础视觉模型,如SAM和GLIP,从多视图渲染中提取视觉信息,并将其投影到三维基元上,从而实现零样本三维部件分割。然而,这些方法仅依赖于二维外观特征,而缺乏三维几何线索,这导致了第二个挑战:如何从未标注的三维形状中利用三维先验。PartDistill通过引入一个二维到三维蒸馏框架来学习三维点云特征提取,进行了初步探索,但由于需要预定义的部件标签和GLIP的受限能力,它无法扩展到如Objaverse这样的大型三维数据集。在现有工作的基础上,我们进一步探索了第三个挑战:三维部件的歧义性,这主要体现在语义和粒度上。语义歧义源于部件的模糊文本描述。现有方法依赖于如GLIP的视觉语言模型(VLMs),这些模型需要部件标签集作为文本提示。不幸的是,并非所有三维部件都能用文本清晰准确地描述。粒度歧义认为,一个三维物体可以在多个粒度级别上进行分割。例如,人体可以被分为更广泛的部位,如上半身和下半身,或更精细的部位,如四肢、躯干和头部。以前的方法依赖于固定的部件标签集,缺乏对分割粒度的灵活控制。
为解决上述三个挑战,本文提出了SAMPart3D,这是一个可扩展的零样本三维部件分割框架,能够在不需要预设部件标签作为文本提示的情况下,以多个粒度分割物体部件。我们认为,以前的工作过度依赖于预定义的部件标签集和GLIP,这限制了它们在复杂、未标注的三维数据集上的可扩展性和在处理三维部件语义歧义方面的灵活性。为解决这一问题,我们放弃了GLIP,而是使用更低级、与文本无关的DINOv2模型进行二维到三维的特征蒸馏,消除了对部件标签集的依赖,并提高了可扩展性和灵活性。此外,为处理分割粒度上的歧义性,我们采用了从SAM蒸馏而来的尺度条件多层感知器(MLP),以实现粒度可控的三维部件分割。DINOv2和SAM的蒸馏分为两个训练阶段,以平衡效率和性能。在获得分割后的三维部件后,我们根据每个部件的视觉区域自适应地渲染多视图图像,然后使用强大的多模态大型语言模型(MLLMs)根据渲染结果为每个部件分配语义描述,从而得出最终的部件分割结果。
3. 效果展示
SAMPart3D能够将任何3D对象分割成多个粒度级别的语义部分,而无需预定义的部分标签集或文本提示。它支持一系列应用,包括零件级编辑和交互式分段。
4. 主要贡献
我们的贡献如下:
• 我们提出了SAMPart3D,这是一个可扩展的零样本三维部件分割框架,能够在不需要预设部件标签作为文本提示的情况下,以多个粒度分割物体部件。
• 我们提出了一种与文本无关的二维到三维蒸馏方法,能够从大规模未标注的三维物体中学习三维先验,并能处理语义和粒度方面的部件歧义性。蒸馏分为两个阶段,在分割性能和训练效率之间取得了平衡。
推荐课程:
Open3D:点云处理入门与实战系列教程
。
• 我们引入了PartObjaverse-Tiny,这是一个三维部件分割数据集,为200个复杂的三维物体提供了详细的语义和实例级部件标注。
• 大量实验表明,与现有的零样本三维部件分割方法相比,SAMPart3D在复杂且多样的三维物体上实现了出色的部件分割结果。此外,我们的方法可促进各种应用,如交互式分割和部件级编辑。
5. 方法
SAMPart3D
,这是一个可扩展的零镜头3D部件分割框架,可以将任何3D对象分割成多个粒度的语义部件,而不需要预定义的部件标签集作为文本提示。
为了可扩展性
,我们使用文本不可知的视觉基础模型提取3D特征提取主干,允许扩展到大型未标记的3D数据集以学习丰富的3D先验。
为了灵活性
,我们提取比例条件零件感知的三维特征,用于多粒度的三维零件分割。
PartObjaverse-Tiny的可视化,带有部件级语义和实例分割标签。
6. 实验结果
多粒度3D部件分割。为了证明我们模型的泛化能力,我们使用在Objaverse上预训练的模型来对GSO、OmniObject3D和Vroid数据集以及由TripoAI和Rodin生成的3D网格中的物体进行分割。多粒度分割结果如图4所示。
与现有方法的比较。对于PartObjaverse-Tiny数据集,我们评估了我们的方法在零样本语义分割方面与PointCLIP、PointCLIPv2、SATR和PartSLIP的对比情况,如表1所示;在零样本类别无关的部件分割方面与SAM3D和PartSLIP的对比情况如表2所示;在实例分割方面与PartSLIP的对比情况如表3所示。对于使用GLIP检测模型的PartSlip和SATR等方法,其分割结果往往会出现许多空白区域。为了解决这个问题,我们采用了k近邻(kNN)方法,将每个面的标签分配给具有预测结果的最近面的标签。我们在图5中展示了定性比较结果。请注意,为了公平比较,我们的预训练数据集排除了PartObjaverse-Tiny中的200个3D对象。
7. 总结
我们提出了SAMPart3D,这是一个零样本3D部件分割框架,能够将3D对象分割成多个粒度的语义部件。此外,我们还引入了一个新的3D部件分割基准数据集PartObjaverse-Tiny,以解决现有标注数据集在多样性和复杂性方面的不足。实验结果表明,SAMPart3D是有效的。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉知识星球