大数据文摘授权转载自机器人大讲堂
作者:Jack
2024年,机器人已经朝着更像人迈出了一大步,斯坦福大学团队与谷歌DeepMind团队合作研发的能炒菜、能做家务的双臂机器人MobileALOHA,特斯拉关于能执行折叠衣物等复杂操作的人形机器人,以及Sora的问世,这些事件引发了人们对于通用机器人时代的遐想。
机器人如何进行类人的复杂操作?ChatGPT引起浪潮后,以谷歌PaLM-E为代表的多模态具身VLM不断面世,机器人领域开始采用更多例如动作捕捉的新技术,也出现了许多不同的AI训练方法。
近日一篇机构的调研报告指出,为了让机器人更像人,目前研究和产业界主要有五种主流的探索路径,分别是虚拟仿真、遥操作、模仿学习、VLM+小模型、VLA,而这些主流研究中,动作捕捉技术这项新技术开始得到愈发广泛的关注。
因为目前,一个瓶颈在于真实数据的获取难度比自然语言更难,为了加速这些领域的研究,快速获取现实物理世界的真实数据,动作捕捉技术得到了更多重视。基于强大的光惯融合算法,光学动捕技术的应用面近年来快速扩大,不仅能够对人体进行定位追踪、人体动作细节捕捉,通过光惯融合系统分析软件,还能实现场地校准标定、3D显示、刚体创建、刚体绘制、刚体追踪等功能。
全球多个研究团队都正在依托动作捕捉系统大量采集生成动作数据,形成动作库数据充实大模型,从而为下一代AI+机器人实现运动控制及环境交互的泛化能力提供数据支撑。
无人机就是一个大量应用到动作捕捉技术的典型研究领域。
由于在多个无人机协同完成复杂任务时,需要每个无人机具备高精度、高稳定性的空间位置信息。不少无人机前沿研究,正借助光学动捕促进机器人集群协同控制研究。通过光学动捕技术,就可以非常容易可以实现对多个无人机的实时跟踪和控制,从而更好地实现集群协同作业和智能控制。
例如在上海大学一篇在人工智能领域的跨学科期刊“Knowledge-Based Systems”上发布,名为《基于人工势场A*算法的双无人机协同悬浮运输路径规划》的学术主题论文,就通过使用青瞳视觉公司旗下的红外光学动捕系统产品,研究并验证了一种独特的双四旋协同运输机器人APF-A*新算法,最终能在复杂的多障碍物环境中,高效规划出安全可靠的路径。
在该研究中,上海大学机电工程与自动化学院饶锦军教授研发团队发现,比起传统无人机,四旋翼无人机的容错率更低,因此,探究其轨迹规划安全性具有非常大的必要性。该团队于是通过光学动捕产品,获取了真实无人机产品数据,并在此基础上利用虚拟仿真平台AirSim构建了一个虚拟仿真环境,通过强化学习尝试让智能体在虚拟环境中不断试错,从而帮助无人机学习最优的行为策略,以最终映射到现实中,帮助无人机及时改变队形,实现安全有效的协同空中运输。该项研究将有助于提升飞机的障碍避让能力及应急处理能,提高运输的安全性。
作为国内为数不多能够大规模商业化落地的光学动捕品牌,由于青瞳视觉公司产品可以采集三维空间轨迹坐标,从而提供低延迟、强稳定、易使用的精确6DOF跟踪,为用户提供关键性能参数。例如在无人车或无人机的产品研发中,开发者可以快速加入了SLAM算法验证,第三方服务器经过无线网络,结合动捕服务器进入POE交换机,实现更为直观地端对端交互和验证。
当然,除了无人机,借助动捕技术优化动作姿态更是目前研究的一大热门。
因为动作捕捉能将真人执行指令的动作通过传感器等设备精准复制给机器人,输入的信息和行动准确且有针对性,这融合遥操作技术,能够快速实现人类分身。
例如此前Mobile ALOHA依托系统收集的数据,就通过人类示教动作学习模仿操作技巧与身体控制。其硬件配置并不高,整套价格仅需3.2万美元,且解决方案为开源。上述成本和配置就能打造出在家庭环境下能够实现诸多功能的Mobile ALOHA,其关键就在于机器人的运动控制、交互和自主移动两方面。不仅如此,腾讯RoboticsX 在四足机器人领域也有基于真狗的动捕思路。
在原先,遥操作技术主要是通过专用设备将人类的动作直接迁移到机器人身上,再由机器人通过传感器收集数据,以达到双向反馈的目的。但是这需要被操作对象非常清晰,否则无法保证真实环境中的成功率。而如今,大模型飞速发展的当下,借助动作捕捉技术,不仅获取到更加细节化的动作数据,而且能够获取到更丰富的环境数据,考虑到机器人更多属于工程应用层面的创新,动捕+遥操作的方式无疑在实际应用中更加直接有效,能够解决现实场景的刚需,尤其适合人形机器人类似产品使用。
例如江汉大学智能制造学院“外骨骼机器人”研究,就采取了青瞳视觉动作捕捉系统为其提供技术、设备及全流程服务支持。借助三维动捕系统,研究能够准确、完整的获取多种运动场景下人体下肢关节呈现的状态特征,为测试实验提供可靠参考、比对数据。基于数据支撑,利于优化外骨骼机器人的运动控制策略,更加真实模拟还原人体运动的姿态,为突破技术难点、提升实验精度,实现下肢外骨骼机器人的仿真控制优化给予了有力支持,创造更多可能。
由于青瞳的视觉动捕技术可进行三维数据分析记录,精准识别记录不同物体运动状态。对于肉眼难以直观记录的下肢运动轨迹提供技术支持。能帮助研究顺利采集包括关节角度、速度、加速度等重要参数,助力人体下肢关节运动特征采集实验的开展。
目前最火热的人形机器人,所表现出的决策执行能力已经逐步向过往的设想靠拢,这也可以采用动作捕捉技术进行支持。
例如此前马斯克的叠衣服视频,很大程度上就借助了类似技术。因为特斯拉在 2023 年股东大会上展示Optimus 的进展时,视频中工程人员就穿戴设备进行演示,如果仔细观察可以发现,其实人类抓取物品的动作就是被 AI 算法精准识别并复制到机器人身上。由于光学动捕技术凭借其高分辨率、高速度和高精度的特点,可以为人形机器人提供更高精度的空间位置信息,这非常有助于提高机器人的定位精度和稳定性,使其能够在复杂的环境中更好地完成各种任务。
当前,青瞳视觉等公司的光学动捕产品,已经能够做到空间定位精度0.1mm,角度精度0.1°,抖动误差仅0.01mm,而且视场角大,追踪距离远,死角少,同时支持主动式标记点和被动式标记点,能适应各种场合,并能够支持上千平米的捕捉面积,能够实时追踪其中的数百个目标,支持多种协议,兼容所有的主流软件。
一直以来,人类对于人形机器人的期待是,希望其需要具备与人类相似的结构和运动能力,以便更好地适应人类生活和工作环境。而通过光学动捕技术,研究人员可以实时捕捉和分析人形机器人的运动数据,进而从仿生角度改进机器人的结构和运动控制算法,提高机器人的灵活性和运动速度。
如果更进一步来说,由于人形机器人作为与人类交互和协同作业的重要工具,未来一定需要具备高度智能和自主性。从人类演示中进行模仿学习,是训练机器人在现实世界中掌握技能的一种朝阳路径,其过程可泛化性和迁移性强,尤其适合日常生活场景。
而通过光学动捕技术,研究人员甚至还可以获取机器人在实际环境中的运动数据和姿态信息,进而利用这些数据优化机器人的行为和决策,提高人机交互的准确性和效率。例如《MimicPlay: Long-Horizon Imitation Learning by Watching Human Play》(Chen Wang et al.)就提到,斯坦福的Mobile ALOHA所采用的MimicPlay 框架,其实逻辑就是从人类交互数据中学习潜在行动逻辑,用以指导基于少量遥操作演示训练的低级视觉运动控制,最终实现在任务成功率、泛化能力和对干扰的鲁棒性上的出色表现,执行任务的成功率显著提升。
因为由于机器人本体自身的物理特性问题,导致许多能够在人类身上实现的动作以及路径,想要真正还原到机器人还需要进一步的清洗和优化。虽然动作捕捉到的人类真实数据落地到机器人上仍然存在一定瓶颈,但仍然是一种非常具有潜力的方向。