专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
51好读  ›  专栏  ›  计算机视觉工坊

具身智能又整活了,清华大学:让机器人实现泛化跑酷!

计算机视觉工坊  · 公众号  ·  · 2024-11-16 00:00

正文


点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:深蓝AI

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

2024年,具身智能和大模型成为焦点话题!今天我们要聊的话题可能听起来很有意思——机器人跑酷。从四足机器人的跑酷算法到双足机器人的跑酷算法,并从全身控制的角度介绍一些 清华大学交叉信息研究院庄子文博士 他们在真 机测试人形机器人的过程中的有趣的发现!
(文末扫码,参与清华庄子文博士的 最新研究工作分享


1

从四足狗开始,到人形泛化跑酷

跑酷是一项对下肢运动的大挑战,需要机器人快速在复杂环境中克服各种障碍。

现有的方法 可以通过使用参考动物数据或复杂的奖励来产生各种但盲目的运动技能或基于视觉但专业的技能。 然而,自主跑酷 要求机器人学习通用的技能 ,这些技能既基于视觉又多样化,以感知和应对各种场景。

(清华大学-四足机器人爬过超高障碍物)

早在2023年开始,清华大学庄子文博士他们在这项工作中,就提出了一种系统, 用于学习一种单一的端到端基于视觉的跑酷策略 ,该策略使用简单的奖励,没有任何参考运动数据。

(清华大学-四足机器人跳远)

他们开发了一种基于直接搭配的强化学习方法,以生成跑酷技能,包括攀爬高障碍物、跨越大间隙、爬行在低障碍物下方、挤过狭窄缝隙和奔跑。并且将这些技能提炼成一个基于视觉的跑酷策略,将其转移到四足机器人上使用其自视深度相机。

(清华大学-采用强动力学约束的强化学习微调)

最终证明,他们的系统 Humanoid Parkour Learning 可以使两个不同的低成本机器人自主选择和执行适当的跑酷技能,以穿越具有挑战性的现实世界环境。


2
再!解决人形机器人行走缓慢难题

在四足机器人取得一定的研究成果后, 庄子文博士他们开始了基于 双足人形机器人 的“跑酷”研究!

(清华大学-人型机器人跑酷1)

对于人形机器人跑酷的实现而言,即使是四足机器人,也需要主动感知和各种操作来克服多个具有挑战性的障碍。

现有的人形运动方法要么优化单个跑酷轨道的轨迹,要么仅通过大量运动参考训练强化学习策略。

(清华大学-人型机器人跑酷2)

在这项工作中, 庄子文博士 他们提出了一 种框架 (single vision-based end-to-end whole-body-control parkour policy framework) 。用于学 习面向人形机器人的端到端基于视觉的全身控制跑酷策略,该策略可以在没有任何运动参考的情况下克服多个跑酷技能。

使用跑酷策略,人形机器人可以在0.42米高的平台上跳跃,跳过障碍,0.8米高的间隙,等等。它也可以在野外以1.8米/秒的速度奔跑,并在不同的地形上稳健地行走。

(清华大学-人型机器人跑酷3)

他‍们在室内和室外环境中测试了算法策略,以证明它可以自主选择跑酷技能,同时遵循操纵杆的旋转命令。他‍们重写了手臂动作,并表明该框架可以轻松转换成人形移动操作任务。

而这次除了此前四足机器人的相关研究部分, 庄子文博士也将就2024年6月发表的该篇人形机器人的最新研究工作进行具体分享。


3
传统控制算法,没能大规模落地?

以先锋研究为代表的波士顿动力,可以说是在传统控制算法上都玩出花了,但却始终没有能够大规模落地。

其创始人雷伯特就曾表示,“没有经历至少25年潜心研究的机器人产品,不足以商业化。”

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群







请到「今天看啥」查看全文