专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
每天发现一家店  ·  今天这 12 件情人节礼物,好美! ·  2 天前  
武汉本地宝  ·  武汉元宵节8个亲子好去处推荐! ·  昨天  
武汉本地宝  ·  家长快看!武汉五区幼儿园入园体检指南来啦! ·  2 天前  
武汉本地宝  ·  武汉本周消费券领取时间一览表 ·  2 天前  
武汉本地宝  ·  武汉公积金账户的钱可以全额提取吗? ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

ToddlerBot:用于运动操纵的开源 ML 兼容人形机器人平台

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2025-02-06 07:35

正文

25年2月来自斯坦福的论文“ToddlerBot: Open-Source ML-Compatible Humanoid Platform for Loco-Manipulation”。

由数据驱动的基于学习机器人研究,需要一种新的机器人硬件设计方法——既可以作为策略执行的平台,也可以作为用于训练策略的具体数据收集工具。本文推出 ToddlerBot,这是一个低成本、开源的人形机器人平台,专为可扩展的机器人和人工智能策略学习和研究而设计。ToddlerBot 能够无缝获取高质量的模拟和真实世界数据。即插即用的零点标定和可迁移的运动系统识别确保了高保真的数字孪生,实现了从模拟-到-现实世界的零样本策略迁移。用户友好的遥控界面有助于简化真实世界数据收集,以便从人类演示中学习运动技能。利用其数据收集能力和拟人化设计,ToddlerBot 是执行全身操控的理想平台。此外,ToddlerBot 的紧凑尺寸(0.56 米,3.4 千克)确保在真实环境中安全操作。可重复性是通过完全 3D 打印、开源设计和市售组件实现的,总成本保持在 6000 美元以下。全面的文档允许使用基本的技术专业知识进行组装和维护,这已通过成功的独立复制系统得到验证。通过臂展、有效载荷、耐久性测试、运动操纵任务以及两个机器人一起整理玩具的协作长视界场景,展示 ToddlerBot 的能力。通过提高 ML 兼容性、能力和可重复性,ToddlerBot 为机器人研究中的可扩展学习和动态策略执行提供一个强大的平台。

如图所示:



传统的机器人设计优先考虑执行器强度、传感器精度、机械精度和可重复性等因素,这些因素是开发稳健控制算法的关键目标。然而,这些平台与由具身数据驱动的现代机器人学习范式并不一致。与机器学习 (ML) 方法兼容的机器人平台必须具备无缝收集观察和动作数据的内在能力,无论是在模拟中还是在现实世界中,因为这些互补的数据源对于可扩展的策略学习至关重要。模拟可以实现快速和可扩展的数据收集,但在很大程度上依赖于精确的物理模型。相比之下,现实世界的数据往往更可靠,但由于成本和安全问题,往往难以扩展。

近年来,人们开发出了许多人形机器人,展示了多样化的设计和能力。波士顿动力 Atlas [8]、Booster T1 [35]、Cassie [33]、Digit [34]、Figure [9]、Fourier GR1 [10]、NAO H25 [31]、Tesla Optimus [44]、Robotis OP3 [36]、Unitree G1 [47] 和 H1 [46] 等工业人形机器人展示了显著的技术进步。另一方面伯克利人形机器人 [27]、BRUCE [28]、iCub [32] 和麻省理工学院人形机器人 [5] 等研究机构也在以不同的侧重点探索人形机器人设计空间。人形机器人可以使用各种指标来评估;优先考虑三个核心属性:ML 兼容性、能力和可重复性。如表所示,确定九个指标,用于比较不同人形机器人平台上的这些属性。


尺寸和重量 是设计人形机器人的关键因素。较小的人形机器人本质上更便宜、更容易制造和维修,也更安全。较大的全尺寸人形机器人通常需要大量工程团队进行操作和维护,以及龙门起重机等专门设施以确保安全。相比之下,较小的人形机器人可以由一个小团队(通常是一个人)部署,并仅用一台笔记本电脑在受限环境中操作。但较小的尺寸有什么好处呢?尺寸减小会限制机器人操纵人体-规模目标的能力,然而,微型人形机器人与适当缩放的目标搭配使用时仍能有效地执行有意义的操纵任务。此外,学习操纵较小的目标和开发动态全身控制和运动技术很可能可以迁移到较大的人形机器人上。

主动自由度 的数量对于人形机器人平台的研究价值至关重要,因为更多的自由度可以实现更像人类的运动。虽然人类的肌肉骨骼系统有超过 600 块肌肉以复杂的协同方式工作,但人体的主要功能运动可以用机器人系统中的 32 个旋转关节来近似:每条腿 6 个自由度,每条手臂 7 个自由度,腰部 3 个自由度,颈部 3 个自由度(不包括手指和脚趾)。因此,人形机器人设计的目标,是使自由度数尽可能接近 32。 被动自由度 不太重要,因为它们对动作空间没有贡献。公众认为微型人形机器人性能有限,主要是因为自由度较少。这种限制通常源于空间限制,限制了许多自由度的结合。

为了定性评估能力,评估人形机器人执行 操纵和运动 任务的能力。虽然每种运动都很重要,但两者的结合尤其引人注目,因为它为全身控制研究打开了机会 [19, 20, 12, 22, 29]。此外,某些动作,如俯卧撑、引体向上和侧手翻,超越了传统的操纵和运动类别,将它们视为先决条件,并需要协调使用双臂和双腿。

最近的进展表明,大规模 模拟数据 收集对于运动非常有效 [39, 42, 26],而 现实世界数据 收集对于操纵更有前景 [6, 25, 30]。因此,理想的人形机器人研究平台应该促进模拟和现实世界环境中的数据收集,其定义为 ML 兼容性。

此外, 开源和低成本 对于其他人的复制至关重要。如果没有这些品质,该领域的研究仍将局限于那些拥有专业知识和大量资源的人。

如图所示人形机器人指标:主动自由度-功率因子



在设计人形机器人时,必须考虑许多因素,包括有效载荷、耐久性、可重复性、自由度、成本、运动和操控能力。鉴于如此巨大的设计空间,ToddlerBot 的关键设计原则优先考虑可重复性、能力和 ML 兼容性。与大多数先前的研究不同,可重复性视为缩小设计空间的硬约束,因为如果人形机器人平台无法被他人复制,它就没有价值。基于这一假设,设计数字孪生和遥控设备来优化硬件的能力,并增强 ML 兼容性。

可重复性 - 硬约束

将可重复性定义为一个人无需专业设备即可在家中复制机器人系统的能力。人力和设施的有限使用带来了一些挑战,包括制造、空间和成本。

制造 。3D 打印因其可访问性和快速周转时间而成为复制开源硬件系统的流行方法 [24、41、48]。尽管有这些优点,但一个关键的挑战是确保打印的部件足够坚固,可以用于人形机器人。PLA 适合大多数部件,而高强度组件可以通过更强的打印轮廓和碳纤维混合长丝进行加固。对于不可 3D 打印的组件(例如电机),限制在现成的物品上。

空间 。在没有设备以确保安全的家庭环境中,必须尽量减少机器人的尺寸。然而,机器人的尺寸受到执行策略所需的机载计算机限制。用 NVIDIA Jetson Orin NX 执行 AI 模型,为了将计算机和电池安装在躯干内,同时保持与人类相似的比例,机器人的高度限制在约 0.6 米。

成本 。使用 3D 打印,ToddlerBot 的总 BOM 成本为 6000 美元,其中 90% 用于计算机和电机。

能力 - 设计目标

为了定量评估人形机器人的能力,提出两个关键指标:功率因子和主动自由度的数量。功率因数定义为:


将 p ̃ 定义为功率因子,表示机器人相对于其重量和身高比例可以产生的总扭矩(以及机械功率)。

直观地说,具有更高的 p ̃ 意味着人形机器人可以更轻松地执行充满活力的动态运动。考虑到机器人和人类策略之间的固有差距,假设人类按照节能的 oracle 策略运行,p ̃  至少应该超过人类阈值 p ̃human 才能实现类似人类的运动。但是,将 p ̃ 提高到远远超过 p ̃human 可能会产生不利影响:它可能导致不自然的运动、过度依赖电机功率、更少的自由度以适应更大的电机、缩短电池寿命和增加安全问题。如上图所示,ToddlerBot 的 p ̃ 得分最接近人类。

机电一体化设计。如图所示,ToddlerBot 复制成年人体的结构,以最大限度地增加主动自由度的数量,从而实现类似人类的运动和多功能的移动操作任务。每只手臂都有七个自由度,并带有直齿轮,用于轴对齐传动,确保高功能性和可达性。每条腿有六个自由度:臀部有三个自由度,可实现广泛的运动范围和优化的步行步幅,膝盖处有一个平行连杆以减少惯性,脚踝处有两个自由度,可实现稳定的运动。颈部有两个自由度,在俯仰关节处采用平行连杆,设计紧凑,可实现富有表现力的运动和完全的头部活动。腰部也具有两个自由度,使用耦合锥齿轮来平衡空间预算,并有效地传输两个电机的动力以进行偏航和滚动驱动,从而实现全身控制。此外,ToddlerBot 提供两种末端执行器设计:用于抓取的平行钳口夹持器和用于需要手掌类姿势任务的柔顺手掌。只需卸下几个螺钉,即可在两分钟内快速切换末端执行器设计。


对于每个主动自由度,通过优化几何形状以防止自碰撞,可最大化运动范围。为了解决空间限制、轴对准和减小惯性等其他问题,在机械设计中集成三种主要传动机构:正齿轮、耦合锥齿轮和平行连杆。

电机选择。选择 Dynamixel 电机是因为其坚固性、可靠性和可访问性。根据空间限制、扭矩要求和成本考虑,为各种关节选择不同类型的 Dynamixel 电机。在通信速度方面,Dynamixel 电机通过以 2M 波特率运行的 5V TTL 协议进行通信,使用现成的通信板为所有 30 个电机以 50 Hz 提供全状态反馈。

传感器、计算和电源。为了增强 ToddlerBot 的功能,集成一套全面的传感器和计算组件。包括两个鱼眼摄像头以扩大视野,提高态势感知能力。惯性测量单元 (IMU) 放置在胸部以提供状态反馈以实现精确控制。扬声器和麦克风促进与人类和其他 ToddlerBot 实例的无缝通信。机载计算由 Jetson Orin NX 16GB 驱动,可实现机器学习模型的实时推理。电源管理由带有双 12V 转换器的定制配电板处理。该系统可有效调节 12V 电源轨并将电力分配给各个组件,满足高能量需求,同时适合躯干的有限空间。

ML 兼容性 - 设计目标

数字孪生。高保真数字孪生对于高质量模拟数据收集和零样本模拟-到-现实的迁移至关重要。将数字孪生开发分为两个关键部分:零点标定以获得正确的运动学,和电机系统识别以获得准确的动力学。由于 Dynamixel 电机缺乏固有的零点,因此需要一种可靠的方法在组装后重新标定,这在维修或设计迭代期间很常见。如图所示,在 CAD 中设计标定装置,可以快速将机器人对准其零点,零点定义为双臂站在身体旁边。这个过程不到一分钟。在正确标定运动学之后,下一个挑战是准确识别动力学参数。首先,虽然这看起来微不足道,但必须仔细称量所有组件以确保机器人的重量分布准确。受到 Haarnoja  [17]的启发,通过命令电机跟踪一个 chirp 信号来收集 sysID 数据,并使用得到的位置跟踪数据来拟合 Grandia [13] 中描述的驱动模型。假设由于制造一致性,同一型号的电机具有几乎相同的动力学参数。通过仅执行 sysID 五次(每个 Dynamixel 电机模型一次)并成功将策略传输到第二个 ToddlerBot 实例而无需额外的 sysID,该假设得到经验验证。


遥操作设备。先前的研究 [1, 48] 表明,遥操作是收集真实世界数据的最有效方法之一。受他们的启发,开发 ToddlerBot 的第二个上身作为引导臂。两个力敏电阻 (FSR) 嵌入在末端执行器的抓握区域中,以检测来自操作员的压缩力,从而允许夹持器根据力输入移动。用手持式游戏电脑(Steam Deck 或 ROG Ally X)来控制其他身体部位。操纵杆发送速度命令来行走、转身和下蹲。按钮触发编程或训练的策略,按住按钮会连续执行策略,释放按钮会停止操作。按钮还可以直接控制颈部和腰部运动。


系统控制如下。

关键帧动画







请到「今天看啥」查看全文