专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

Mobile-TeleVision：人形机器人全身控制的新突破

计算机视觉工坊 · 公众号 · · 2024-12-30 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：深蓝AI

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

在科技飞速发展的今天，人形机器人的研究和应用正日益受到广泛关注。其中，如何实现人形机器人既具备稳健的下肢运动能力，又能拥有精确的上肢操作能力，以完成各种复杂任务，成为了研究的关键课题。Mobile-TeleVision项目所提出的方法为这一问题带来了新的思路和突破。

©️【深蓝AI】编译

论⽂题目：Mobile-TeleVision: Predictive Motion Priors for Humanoid Whole-Body Control

论文作者：Chenhao Lu, Xuxin Cheng, Jialong Li, Shiqi Yang, Mazeyu Ji, Chengjing Yuan, Ge Yang, Sha Yi, Xiaolong Wang

论文地址： https://arxiv.org/pdf/2412.07773

人形机器人在执行任务时，需要同时兼顾下肢的移动和上肢的操作。例如，在实际场景中，机器人可能需要一边行走、原地站立，一边操作物体。然而，现有的强化学习（RL）方法虽然能够较为稳健地训练全身的运动 - 操作策略，但在处理具有高自由度手臂的精确操作时往往存在不足。这是因为全身的运动和操作是一个复杂的系统，各个部分之间相互关联又相互影响，要同时实现稳健的运动和精确的操作并非易事。

▲图1|人形机器人执行需要精确操作和稳健移动的全身任务©️【深蓝AI】编译

■2.1. 上下身控制的解耦

Mobile - TeleVision项目提出将上身控制与下身运动进行解耦。对于上身的精确操作，采用逆运动学（IK）和运动重定向的方法。逆运动学可以根据机器人末端执行器的期望位置和姿态，计算出各个关节的角度，从而实现精确的运动控制。运动重定向则可以将从其他数据源获取的运动模式应用到机器人身上，进一步提高操作的准确性。

■2.2引入预测运动先验（PMP）

为了解决解耦可能带来的系统稳健性降低的问题，该项目引入了预测运动先验（PMP）。PMP是通过条件变分自编码器（CVAE）进行训练得到的，用于表示上身运动。条件变分自编码器是一种强大的生成模型，它能够学习到数据的潜在分布，并根据给定的条件生成相应的数据。通过将上身运动表示为PMP，并基于此训练策略，可以实现稳健的下身运动。

▲图2 | 做训练的流程©️【深蓝AI】编译

■3.1CVAE特征的重要性

实验结果表明，CVAE的特征对于维持系统的稳健性至关重要。CVAE通过学习上身运动的潜在模式，能够为机器人的运动控制提供有效的指导。当机器人在执行任务时，这些特征可以帮助机器人更好地适应不同的环境和任务需求，从而保证运动的稳健性。

■3.2与基于RL的全身控制方法比较

在精确操作方面，Mobile - TeleVision的方法显著优于基于RL的全身控制方法。这是因为通过解耦和引入PMP，该方法能够更加专注于上肢的精确操作，同时又能保证下身运动的稳健性。而基于RL的方法在处理复杂的上肢操作时，由于需要同时考虑全身的运动，往往难以达到同样的精确程度。

▲ 图3 | 鲁棒性测试©️【深蓝AI】编译

■4.1团队成员

该项目的团队成员包括Chenhao Lu、Xuxin Cheng、Jialong Li等众多科研人员。他们在机器人控制领域拥有丰富的知识和经验，通过共同的努力，推动了人形机器人全身控制技术的发展。‘

■4.2研究意义

Mobile - TeleVision项目的研究成果对于人形机器人的发展具有重要意义。首先，它为解决人形机器人稳健运动和精确操作的矛盾提供了一种有效的方法。这将使得人形机器人在实际应用中能够更加高效地完成各种任务，例如在工业生产中进行复杂的装配操作，在家庭服务中更加灵活地与环境和人类进行交互。其次，该研究也为机器人控制领域的进一步发展提供了新的思路和技术基础。其他研究人员可以在此基础上继续探索，不断完善人形机器人的控制方法，推动机器人技术向更高水平发展。

未来，Mobile - TeleVision 项目有着极为广阔的发展前景与诸多值得期待的方向。一方面，精确操作能力的提升势在必行。随着科技的持续进步，更先进的传感器技术将应运而生，其能够为人形机器人提供更为精准、丰富的环境与操作对象信息，从而助力机器人的上肢操作精度向微观层面拓展，灵活性也将得到质的飞跃，无论是精细的装配任务还是复杂的艺术创作，都有望完美胜任。

另一方面，系统适应性与通用性的增强是关键的发展路径。研究人员会致力于打造一套高度智能化、自适应的控制体系，使机器人能迅速解析并融入各类全新的环境与任务情境。无论是崎岖不平的户外地形、高温高压的工业环境，还是充满变数的救援场景，人形机器人都能够依据实时状况灵活调整自身的运动与操作模式，实现真正意义上的多场景无缝切换与高效作业。

尤为重要的是，与人工智能技术的深度融合将为人形机器人注入灵魂。借助强大的机器学习与深度学习算法，机器人将不再仅仅是机械地执行预设指令，而是能够像人类一样感知、思考与决策。它们可以通过对海量数据的深度分析，自主学习最优的运动 - 操作策略，预测任务走向并提前做出应对。这将极大地拓展人形机器人在各个领域的应用边界，从智能家居的贴心助手到医疗康复的得力伙伴，从教育领域的创新推动者到探索未知宇宙的先锋队员，人形机器人将深度融入人类社会的方方面面，开启人机协同共创美好未来的崭新篇章。

Ref：

Mobile-TeleVision: Predictive Motion Priors for Humanoid Whole-Body Control

编

译｜ Scarlett

审核｜apr

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

Mobile-TeleVision：人形机器人全身控制的新突破