专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
中国城市规划  ·  地方两会 | ... ·  2 天前  
中国城市规划  ·  学术报告 | ... ·  昨天  
中国交建  ·  孕育之冬丨中交集团中标这些项目⑭ ·  2 天前  
中国交建  ·  红心向党 ... ·  2 天前  
中国中铁  ·  佳节守护民生 润泽千家万户 ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

视觉灵活性:手中操作对新和复杂目标形状的重定向

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-12-22 00:07

正文

23年11月来自MIT和清华的论文“Visual Dexterity: In-Hand Reorientation of Novel and Complex Object Shapes”。

手中物体重定向对于执行许多灵巧的操作任务是必不可少的,例如在当前机器人无法企及的较不结构化环境中使用工具。先前的研究构建重定向系统,假设了以下一项或多项:仅重定向具有简单形状的特定目标、重定向范围有限、操作缓慢或准静态、仅限模拟结果、需要专门且昂贵的传感器套件,以及其他使系统无法在现实世界部署的限制。本文提出一种不做这些假设的通用目标重定向控制器。它使用来自单个消费级深度摄像头的读数,通过任何旋转实时动态重定向复杂和新目标形状,中值重定向时间接近 7 秒。该控制器在模拟中使用强化学习进行训练,并在现实世界中对未用于训练的新目标形状进行评估,包括最具挑战性的场景,即重定向朝下的手举在空中的目标,并且在重定向过程中必须抵消重力。硬件平台仅使用成本不到五千美元的开源组件。虽然展示克服先前工作中假设的能力,但仍有足够的空间来提高绝对性能。例如,未用于训练具有挑战性的鸭形目标在 56% 的试验中掉落。当它没有掉落时,控制器在 75% 的时间内将目标重定位在 0.4 弧度(23 度)以内。


手持目标重定向是一个特定的灵巧操作问题,其目标是将手持目标从任意初始方向操纵到任意目标方向 【1-7】。目标重定向在操作中占有特殊地位,因为它是灵活使用工具的先决条件。选择工具后,机器人必须将工具定向到适当的配置才能使用它。例如,螺丝刀只有当其头部与螺丝顶部对齐时才能使用。因此,目标重定向不仅是灵巧性的试金石,也是许多下游操作任务的推动因素。

如图所示:(A):现实世界设置的正面和侧面视图。控制器是一个神经网络,它使用来自单个摄像头的深度记录以及操纵器的关节位置来预测关节位置的变化。(B):同一个控制器重定向三个不同目标的可视化。最右边的一列显示目标方向。前两行是四指手在空中重定向目标的实例。最后一行显示在支撑表面(外在灵活性)的帮助下重定向。


教师-学生训练范式已用于从视觉和本体感受观察中学习模拟中的目标重定向策略 (7)。但是,每个目标都训练了单独的策略。其次,在 NVIDIA V100 GPU 上训练单个目标的学生视觉策略需要一个多星期。开发一个两步学生训练(教师-学生)框架,大大加快了视觉学生策略的学习速度。使用这个框架,能够学习一种适用于各种目标并推广到具有不同形状和物理参数目标的视觉策略。

如图所示是教师和两步学生训练框架。首先,使用具有特权状态信息的强化学习训练教师策略。然后,使用合成和完整点云作为输入训练学生策略以模仿教师。使用渲染的点云进一步微调学生策略。在部署期间,学生策略可直接用于控制真实机器人。


视觉策略的关键要求是以足够高的频率运行以实现实时控制。为了快速计算,设计一个稀疏卷积神经网络,使用 Minkowski 引擎 【45】来处理点云 (Pt),其架构如图所示(学生视觉策略网络)。与 【7】中使用的架构相比,该卷积网络具有更高的容量,可以学习多个目标的重定向。







请到「今天看啥」查看全文