24年12月来自北大、北京通智、北大武汉 AI 研究院和英国 Queen Mary 大学的论文“Embedding high-resolution touch across robotic hands enables adaptive human-like grasping”。
开发适应现实世界动态的机械手仍然是机器人技术和机器智能领域的一项基本挑战。尽管在复制人手运动学和控制算法方面取得了重大进展,但机器人系统仍然难以在动态环境中匹敌人类的能力,这主要是由于触觉反馈不足。为了弥补这一差距,推出 F-TAC 手,一种仿生手,其 70% 的表面积具有高分辨率触觉感应(0.1 毫米空间分辨率)。通过优化的手部设计,克服集成高分辨率触觉传感器的传统挑战,同时保留完整运动范围。这只手由生成算法驱动,该算法合成类似人类的手部配置,在动态的现实世界条件下表现出强大的抓握能力。对 600 次现实世界试验的广泛评估表明,这种触觉具身系统在复杂操作任务中的表现明显优于非触觉替代方案(p < 0.0001)。
现实场景中的精确感觉运动控制是机器智能和具身人工智能 (AI) 的基础 [1, 2]。该领域的一个标志性挑战是灵巧机械手的控制 [3]。尽管机电一体化系统和精密手指设计取得进展,从而提高灵活性 [4],但丰富的感觉反馈有限,从根本上限制了它们在动态交互过程中的适应能力 [5, 6]。理解和解决这一感官限制,对于在需要精细控制和快速适应的现实场景中部署机械手至关重要。
机器人社区早已认识到这一挑战,并通过日益复杂的硬件和控制策略来应对这一挑战。在硬件方面,研究人员已经开发出复杂的机械设计,可以致密模仿人类手部运动学 [7–11],主要依靠本体感受的感知(proprioceptive sensing)进行关节级反馈。这些硬件进步通常与视觉感知相结合,已实现各种控制范式:从执行精确手指步态的基于规划方法 [12, 13],到通过训练制定控制策略的基于学习方法 [14–16],以及最近提供高级任务推理的大语言模型 (LLM) [17]。然而,一个根本的限制仍然存在:如果没有对局部接触的直接感知——建模和控制的关键信息——这些系统就无法处理意外的物理交互 [5]。
解决方案可能在于理解人类的手部控制,它通过复杂的触觉感知系统实现非凡的精确控制。这个生物系统由两个关键元素组成:嵌入整个皮肤的密集触觉传感器阵列 [18, 19],以及初级的体感皮层(primary somatosensory cortex)中快速解释和整合这种大量感官输入的专门神经处理 [19–21]。这种组合使人类能够在操作过程中立即检测并响应细微的接触变化,这是当前机器人系统尚未复制的能力。
受这种生物结构的直接启发,提出 F-TAC 手(全-手触觉-嵌入式仿生手),该系统弥补机器人操作中的感官差距。核心在于其全面的触觉感知能力,具有高分辨率(0.1 毫米空间分辨率)覆盖 70% 的手表面。这是通过 17 个基于视觉的触觉传感器在六种优化配置中的集成实现的,其中传感器盖既可用作传感元件,又可用作结构组件。手保持完全类人的灵活性,其高 Kapandji 评分 [22] 和执行所有 33 种人类抓握类型 [23] 的能力就是明证。作为该硬件的补充,开发一种生成算法,可以生成像人类一样的手部配置,为目标交互创建丰富的知识库。该集成实现闭环触觉信息控制,可处理高维接触数据,实现精确、自适应的操作。
为了严格验证 F-TAC 手的功能,专注于多目标抓取——这是一项体现灵巧操作挑战的任务 [5, 24]。虽然单目标操作已成功通过 1 自由度 (DoF) 并联夹持器 [25–27] 解决,但同时操作多目标却面临两个不同的挑战:它需要在整个手部进行精确的接触检测,并进行战略性运动调整以防止目标碰撞。通过全面的触觉感应,F-TAC 手直接解决这些挑战。对 600 次真实世界试验的广泛评估表明,与非触觉替代方案相比,性能有显著提高 (p < 0.0001),特别是在涉及真实世界执行噪声和动态目标交互的场景中。
F-TAC 手,通过其全面的触觉感应能力推动灵巧机械手的发展,同时保持全方位的运动范围。该手实现类人的触觉覆盖范围,传感元件以 10,000/cm^2 的密度覆盖 70% 的手掌表面(如图概述所示)——大大超过目前的商用解决方案,例如 Shadow hand,它只能在不到 20% 的表面上提供五点反馈 [11]。
这种广泛的覆盖范围是通过多种配置的基于视觉触觉传感器阵列实现的,具有专门设计的盖子,可与手指骨和手掌对齐,以最大限度地减少机械冗余。专门的电子模块可实现大规模传感器读数采集,同时最大限度地减少空间、重量和布线要求。该手的尺寸与成年人的手相似,从手腕到中指尖长 194 毫米。
如图所示F-TAC 手的机电一体化设计:a、基于视觉的触觉传感器作为远端指骨的分解图;b、电气元件和系统方案;c、F-TAC 手组装和电缆驱动机构示意图;d、带有机械部件的手指模型;e、带有机械部件的拇指模型。
基于其广泛的触觉传感覆盖范围,F-TAC 手还实现与最先进的灵巧手 [9–11] 相同的综合运动能力。该手仅使用五根细电缆即可实现完全移动,并具有相当大的有效载荷能力。每根电缆控制手指的屈伸,与每个关节处的刚度调节弹簧协同工作,以复制人手 [30] 特有的协调但半独立的运动。额外的驱动程度可实现拇指对握,从而扩展手的运动多样性。通过成功完成所有 10 个 Kapandji 测试手势 [22]及其执行所有 33 种人类抓握类型的能力,可以验证手的灵活性。
如图所示F-TAC 手的工作空间。F-TAC 手的工作空间得益于其智能设计,使其能够执行 Feix [23] 记录的所有 33 种人类抓握类型。
如图所示 F-TAC 手的硬件:a、无缝集成 17 个基于视觉的传感器,采用 6 种配置,保持 15 个自由度和成人手部尺寸;每个传感器都包含一个流线型摄像头模块,可在狭窄空间内高效采集触觉数据;b、F-TAC 手通过握住 2.5 公斤的哑铃来展示其力量;每个指骨贡献的总抓握力为 10.3 N;c、手指的示意图,其中 K/n、θ/n 和 F 分别表示关节刚度、旋转角度和电缆力;还显示由于电缆和关节对齐而导致的旋转偏移;d、自上而下比较 F-TAC 手和人类手指屈曲;e、尽管传感器众多,但 F-TAC 手仍保持其活动性,成功的 Kapandji 测试 [22] 证明这一点。
手的触觉感知系统利用光度立体原理 [32, 33],将光强度变化转换为表面梯度信息(如图 a)。接触表面几何形状通过两阶段过程重建。首先,编码器-解码器神经网络阵列(如图 b)映射每个传感器的表面梯度和强度变化之间的物理关系。接下来,泊松求解器生成高保真表面几何形状,可视化为法线图(如图 c)。
F-TAC 手触觉感知系统前所未有的规模需要开发标定解决方案。通过基于物理的图像形成(image formation)模型解决这个问题,该模型在接触中生成弹性体变形的合成读数(如图 d)。这种方法可以实现高效的神经网络训练(如图 b)和准确的传感器标定。
细粒度触觉传感与强大的运动能力相结合,使 F-TAC 手能够有效地抓取各种目标,包括水晶球等具有挑战性的目标(如图 e),同时捕获详细的接触信息(如图 f)。这些传感数据可以在操作过程中准确估计目标姿势(如图 g)。通过这种密集触觉阵列和先进运动能力的结合,F-TAC Hand 实现仿生保真度,提高机器人操作能力和对人类手动灵活性的理解。
虽然 F-TAC 手的高关节度可以实现复杂的操作,但它在抓握规划方面也带来独有的挑战。自由度的增加使得传统基于机械方程的方法在计算上难以实现 [34]。基于学习的替代方案 [35] 虽然避免复杂的分析解决方案,但需要大量的训练数据,而这些数据不仅收集成本高,而且可能受到人类演示偏好的影响——这对高度灵活的灵巧手来说是一个特殊的挑战。
本文解决方案将抓握生成重定义为条件吉布斯分布的采样问题,其中能量项结合力闭合(force closure)标准来评估抓握对外力的稳定性;用一组包含 23 个目标的多样化测试集验证这种方法,这些目标包括球体、圆柱体、长方体和不规则形状(图 a)。F-TAC 手的仿生运动学和各种目标几何形状的结合创造了一个复杂的高维解空间。为了有效地探索这一问题,开发一种改进的 Metropolis-调整 Langevin 算法 (MALA),该算法可以有效地在局部最小值之间转换,同时避免次优解决方案。
通过吸引-扩散能量景图 (ADELM) 断开图 [36](上图 b-d)可视化生成的抓取配置。这些图将局部能量最小值表示为圆圈,其半径表示类似抓取策略的数量,颜色表示根据 Feix [23] 的抓取类型:
力量抓握(红色)、精度抓握(绿色)和中级抓握(黄色)
。连接条的高度表示配置之间的能量障碍,可深入了解不同抓取策略之间的关系。生成的抓取与人类演示之间的直接比较(上图 b-d)验证该解决方案是类人的。值得注意的是,即使对于钳子和对抗性目标 [37](上图 e-f)等具有挑战性的情况,该算法也能保持其有效性,
为了定量评估该方法与人类的多样性,根据 Feix 的分类法 [23] 分析 1800 种生成的抓握动作,分为 19 种常见的抓握类型。结果分布(上图 g)展示人类抓握的全面覆盖范围,从常用策略(如 Power Sphere 和 Precision Sphere)到特殊配置(如远端类型和手掌抓握)等。
使用接触图 [38] 进一步分析,揭示与人类抓握分类一致的自然聚类模式。通过主成分分析 (PCA) 降维并通过 t-分布随机邻域嵌入 (t-SNE) 进行可视化,
力量抓握
和
精度抓握
的不同分组,
中级抓握
适当地位于由径向基函数 (RBF) 为核支持向量分类器 (SVC) 定义的边界附近。这种分布反映人类的抓握分类模式,其中