专栏名称: 3D视觉之心
3D视觉与SLAM、点云相关内容分享
目录
相关文章推荐
丁香医生  ·  感染了幽门螺杆菌,有 2 种情况可以不治 ·  8 小时前  
丁香医生  ·  容易长胖的一个因素,很多人都不知道 ·  昨天  
广东疾控  ·  每天敷面膜能更护肤……是真是假? ·  昨天  
丁香生活研究所  ·  不用去干洗店,羊毛衫也可以扔洗衣机!(内附保 ... ·  4 天前  
51好读  ›  专栏  ›  3D视觉之心

ICLR 2025|南洋理工大学AvatarGO,探索4D人与物体交互生成新方法

3D视觉之心  · 公众号  ·  · 2025-02-25 07:00

正文

作者 | 机器之心

点击下方 卡片 ,关注“ 3D视觉之心 ”公众号


第一时间获取 3D视觉干货

图片

近年来,随着扩散模型和 Transformer 技术的快速发展,4D 人体 - 物体交互(HOI)的生成与驱动效果取得了显著进展。然而,当前主流方法仍依赖 SMPL [1] 这一人体先验模型来生成动作。尽管这些方法已取得令人瞩目的成果,但由于 SMPL 在衣物表现上的局限性,以及缺乏大规模真实交互数据的支持,它们依然难以生成日常生活中的复杂交互场景。

相比之下,在 2D 生成模型中,由于大语言模型和海量文字 - 图片数据的支持,这一问题得到了有效的解决。2D 生成模型如今能够快速生成高度逼真的二维场景。而且,随着这些技术被引入到 3D 和 4D 生成模型中,它们成功地将二维预训练知识迁移到更高维度,推动了更精细的生成能力。然而,在处理 4D 人体 - 物体交互时,这些 3D/4D 生成的方法依然面临两个关键挑战:(1)物体与人体的接触发生在何处?又是如何产生的?(2)如何在人体与物体的动态运动过程中,保持它们之间交互的合理性?

为了解决这一问题,南洋理工大学 S-Lab 的研究者们提出了一种全新的方法: AvatarGO。该方法不仅能够生成流畅的人体 - 物体组合内容,还在有效解决穿模问题方面展现了更强的鲁棒性,为以人为核心的 4D 内容创作开辟了全新的前景。

想深入了解 AvatarGO 的技术细节?我们已经为你准备好了完整的论文、项目主页和代码仓库!

  • 论文地址:https://arxiv.org/abs/2410.07164

  • Project Page:https://yukangcao.github.io/AvatarGO/

  • GitHub:https://github.com/yukangcao/AvatarGO


引言
近年来,随着人体 - 物体(HOI)交互数据集(如 CHAIRS [2], BEHAVE [3])的采集,以及扩散模型和 transformer 技术的迅速发展,基于文本输入生成 4D 人体动作和物体交互的技术已经展现出了巨大的潜力。然而,目前的技术大多集中于基于 SMPL 的人体动作生成,但它们难以真实呈现日常生活中人物与物体交互的外观。尽管 InterDreamer [4] 提出了零样本生成方法,能够生成与文本对齐的 4D HOI 动作序列,但其输出仍然受到 SMPL 模型的局限,无法完全突破这一瓶颈。
在另一方面,随着 3D 生成方法和大语言模型(LLM)的快速发展,基于文本的 3D 组合生成技术逐渐引起了广泛关注。这些技术能够深度理解复杂对象之间的关系,并生成包含多个主体的复杂 3D 场景。例如,GraphDreamer [5] 通过 LLM 构建图结构,其中节点代表对象,边表示它们之间的关系,实现了复杂场景的解耦;ComboVerse [6] 则提出空间感知评分蒸馏采样技术(SSDS),强化了空间的关联性。随后,其他研究 [13, 14] 进一步探索了联合优化布局以组合不同组件的潜力。但它们在生成 4D HOI 场景时,依然面临着两个核心挑战:
  • 触区域定义不准确: 虽然 LLM 擅长捕捉物体间的关系,但在与扩散模型结合时,如何准确定义物体间的接触区域,特别是复杂的关节结构如人体,仍然是一个难题。尽管 InterFusion [13] 构建了 2D 人体 - 物体交互数据集,旨在从文本提示中提取人体姿势,但它们仍在训练集之外的情况下,无法准确识别人体与物体的最佳接触部位。

  • 4D 组合驱动的局限性: 尽管 DreamGaussian4D [7] 和 TC4D [8] 利用视频扩散模型对 3D 静态场景进行动作驱动,但这些方法通常将整个场景视为一个统一主体进行优化,从而导致不自然的动画效果。尽管像 Comp4D [9] 这类项目通过轨迹为每个 3D 对象单独生成动画,但物体之间的接触建模仍然是一个巨大挑战。

为了解决这些挑战,AvatarGO 提出了两项关键创新,以解决物体与人体应 “ 如何交互 ” 以及 “ 在哪里交互 ” 的问题:
  • LLM 引导的接触区域重定向 (LLM-guided contact retargeting):该方法通过利用 Lang-SAM [10] 从文本中识别出大致的接触部位,并将其作为优化过程的初始化,从而解决了扩散模型在估计接触区域时的难题。

  • 对应关系感知的动作优化 (Correspondence-aware motion optimization):基于对静态合成模型中穿模现象较少发生的观察,AvatarGO 提出了对应关系感知的运动优化方法。该方法将物体的运动分为主动和从动部分,并利用 SMPL-X 作为中介,确保人体和物体在交互过程中保持一致的对应关系。这一创新显著提高了在运动过程中对穿模问题的鲁棒性。


AvatarGO: 4D 人体 - 物体生成框架
AvatarGO 以文本提示为输入,生成具有物体交互的 4D 虚拟人物。其框架核心包括:(1) 文本驱动的 3D 人体与物体组合 (text-driven 3D human and object composition):该部分利用大型语言模型(LLM)从文本中重定向接触区域,并结合空间感知的 SDS(空间感知评分蒸馏采样)来合成 3D 模型。(2) 对应关系感知的动作优化 (Correspondence-aware motion optimization):该优化方法联合优化人体和物体的动画,能够在动画过程中有效维持空间对应关系,从而提升对穿模问题的鲁棒性。
文本驱动的 3D 人体与物体组合
现在已有的方法已经可以很快捷高效的生成三维人物 和物体 ,但 AvatarGO 的研究人员发现,即使进行手动调整,如重新缩放和旋转 3D 物体,仍然难以精确地绑定生成的 3D 人体和物体模型。为此,他们首先利用文本提示将人物 和物体 进行组合,通过优化其高斯属性来实现这一目标。同时,他们还优化了物体 的三个可训练全局参数,包括旋转旋转 、缩放因子 和平移矩阵 :
其中 是组成物体 的高斯点云。
空间感知评分蒸馏采样(spatial-aware score distillation sampling): 沿袭 ComboVerse [6] 的方法,我们采用 SSDS 来促进人体和物体之间的 3D 组合生成。具体而言,SSDS 通过用一个常数因子𝑐(其中𝑐>1)缩放指定标记 < token∗>的注意力图,从而增强 SDS 与人体和物体之间的空间关系。
在这里, 对应于编码人体 - 物体交互项的标记,如 ,这些标记可以通过大型语言模型(LLMs)识别,也可以由用户指定。
LLM 引导的接触区域重定向(LLM-guided contact retargeting): 虽然空间感知评分蒸馏采样有助于理解空间关系,但在识别人与物体最合适的接触区域时仍然面临困难,而接触区域却又是人体 - 物体交互的关键组成部分。为了解决这个问题,AvatarGO 提出利用 Lang-SAM [10] 从文本提示中识别接触区域。具体而言,从 3D 人体模型 出发,AvatarGO 从正面视角渲染该模型生成图像𝐼。然后,将此图像与文本输入一起,输入到 Lang-SAM 模型中,以推导出 2D 分割掩码 :
其中, 表示描述人体部位的文本,例如 。
随后,他们通过逆向渲染将 2D 分割标签反投影到 3D 高斯上。具体来说,对于分割图上的每个像素𝑢,他们将掩模值(0或 1)更新回到高斯点云上:
其中, 表示第𝑖个高斯点的权重, 是可以投影到像素 𝑢上的高斯点的集合。 分别表示不透明度、透射率和分割掩码值。在权重更新后,他们通过将高斯点的权重与预定义的阈值𝑎进行比较,来判断一个高斯点是否对应于人体部位的分割区域。然后,AvatarGO 根据以下公式初始化平移参数 :
其中, ,𝑁是人体模型 中高斯点的数量。
对应关系感知的动作场
在生成了 3D 人体与物体的组合之后,同步驱动他们带来了额外的挑战,其主要是由于潜在的穿模问题。这个问题源于物体缺乏一个明确定义的运动场。为此,AvatarGO 通过使用 SMPL-X 的线性混合蒙皮函数(Linear-blend Skinning)为人体和物体模型建立了运动场,并提出了一种对应关系感知的运动优化方法,旨在优化物体模型的可训练全局参数,即旋转( )和平移( ),以提高人体与物体之间穿模问题的鲁棒性。首先,SMPL-X 的线性混合蒙皮函数(𝐿𝐵𝑆)可表达为:






请到「今天看啥」查看全文