专栏名称: AI生成未来
AIGC最新技术及资讯
目录
相关文章推荐
南宁融媒  ·  最高省1.5万元!广西家装厨卫“焕新”补贴来了 ·  19 小时前  
南宁融媒  ·  最高省1.5万元!广西家装厨卫“焕新”补贴来了 ·  19 小时前  
极果网  ·  iPhone ... ·  昨天  
什么值得买  ·  微信朋友圈可发5分钟长视频;iPhone17 ... ·  2 天前  
51好读  ›  专栏  ›  AI生成未来

CVPR'24 Highlight!北大朱毅鑫团队人-场景交互建模新突破:创新自回归扩散方法实现动作生成

AI生成未来  · 公众号  ·  · 2024-08-08 00:10

正文

点击下方 卡片 ,关注“ AI生成未来


智猩猩论文探析

Cyn摘编


人类与环境之间的复杂互动是人-场景交互(HSI)任务的焦点,涵盖了从对象级别的交互到场景级别的规划与交互等多个方面。


尽管目前研究人员在该领域取得了一定成果,但其发展明显受到高质量数据集稀缺的阻碍。且随着虚拟现实(VR)、增强现实(AR)以及动画和游戏产业的快速发展,人们对高级运动合成的需求日益增加。例如:


(1)基于MoCap的数据集优先使用精密设备(如VICON)进行高质量的人体运动捕捉,但往往缺乏捕捉多样和沉浸式HSI的能力。


(2)通过可扩展的RGBD视频记录的数据集提供了更广泛的实用性,但受到人体姿势和对象跟踪质量较低的限制。


(3)合成数据集的出现提供了成本效益和适应性,但未能完全包含真实的HSI,特别是在捕获动态3D接触和对象跟踪方面。

为了解决这些问题,北京大学人工智能研究院朱毅鑫教授团队联合北京通用人工智能研究院等构建了 TRUMANS数据集 ,并且开发了基于该数据集的 自回归扩散模型, 以实现真实交互动作生成,关于该成果的论文已获得CVPR 2024 Highlight。


论文地址:https://arxiv.org/abs/2403.08629

项目地址:https://jnnan.github.io/trumans/

开源代码:https://github.com/jnnan/trumans_utils

01

TRUMANS 数据集构建


TRUMANS是迄今为止最全面的基于运动捕捉的HSI数据集,包含超过15小时的人类与100个室内场景中的复杂交互数据。数据集涵盖了从静态物品到动态物品,特别注重接触的真实性。

为了使人类运动适应3D场景对象的变化,确保HSI的物理合理性和准确性,从目标关节计算、适应场景变化和IK求解器运动重组三个方面进行了数据增强。

02

基于自回归扩散的HSI生成模型开发


论文提出的自回归扩散模型生成的交互动作不仅在三维场景中物理上可信,而且可以通过帧级动作标签高度可控,能够实时产生任意长度的序列。模型关键技术主要由以下三部分组成。

(1)自回归扩散策略。模型采用自回归扩散策略,将长运动序列逐步生成为多个片段。通过扩展前一个片段的最后k帧来生成新的片段,及利用填充未掩码的帧来完成每个动作段的其余部分。

(2)局部场景感知器。用于嵌入当前动作段的子目标位置周围的局部场景上下文。通过查询全局场景占用网格来构建一个以子目标为中心的局部占用网格,并使用ViT(Vision Transformer)对其进行编码。

(3)帧动作嵌入。模型将动作标签与一个进度指示器结合,以表示动作从开始到结束的进展。使得模型能够理解动作随时间的演变,并在多个动作段中连贯地生成动作序列。







请到「今天看啥」查看全文