添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「
3D视觉从入门到精通
」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
具身智能的研究
不仅限于实验室。这些技术正在被应用于自动驾驶汽车、工业自动化、服务机器人等多个领域。这些智能系统不仅提高了效率,还为人类提供了前所未有的便利。
在今年3月,
地平线公司
向港交所递交招股书,也是在今年年初,地平线拆分其
机器人事业部
,成立独立子公司“地瓜机器人”。在大语言模型的“东风”下,
具身智能
成为机器人领域
最大的风口,
这便是是地瓜机器人独立的背景。
地平线是国内知名的智能驾驶技术公司,以“自动驾驶”技术闻名。然而,其长远目标是发展
机器人技术
,从其完整公司名称“地平线
机器人
技术有限公司(Horizon Robotics)”中可窥见
具身智能
机器人的
重要性
。
具身智能的发展被视为实现通用人工智能的基本途径,它不仅要求智能体在数字空间中表现出智能,还要能够应对物理世界的复杂性和不可预测性。
当下,具身智能
应用落地
依附的本体依然以
机械臂为主
,涉及到机器人视觉、轨迹规划与控制、抓取等。
很多人应该都比较关心,最近的
具身智能
又有什么样的突破?有哪些前沿的研究?
因此我们邀请到了多位奋战在科研一线的嘉宾,来深蓝学院进行了一场公开分享。同时,对期间聊到的几个Q&A进行简要梳理,以期与诸位同行,进一步深入探讨。
如何评估具身多模态大模型在真实世界场景中的性能?文中提到目前缺乏真实机器人数据,无法在真实世界中进行实验,那么未来如何克服这一局限性,并评估模型的实际应用效果?
刘家铭(北大博士):
我们正在进行真实环境的实验,通过在模拟环境中搭建不同的场景,来测试机器人完成任务的成功率。此外,如果资源有限,无法搭建足够多的场景,我们也可以参考OpenVLA的范式,采用Real-to-Sim的方法,即在现实世界中测试,然后将数据带回仿真环境中进行进一步的研究。
我认为这可能是未来探索的方向,或者是未来测试机器人数据和训练模型的一种方法。虽然这可能不是最好的方法,但它提供了一种可能的解决方案。
至于如何克服当前的局限性?比如建立一个机器人平台,并不是所有实验室都有条件拥有真实的机器人设备。如果我们能够建立这样的平台,上传我们的模型,选择相应的场景进行测试,那么这个平台就可以收集大家的模型和推理结果,并将它们下放到实验室中进行真实的测试。
这样的做法可以促进整个机器人测试和评估的发展,同时也将推动整个机器人领域的进步。当然,这个愿景虽然目前还很遥远,但它为我们提供了一个努力的方向。
源自:刘家铭博士团队
相关论
文
不同类型的机械臂,比如具身机器人、工业kuka机械臂、以及医疗达芬奇机器人,这之间有没有什么共同的知识点?
夏文科(人大博士):
在我看来,不同类型的机器人在应用上确实存在差异。例如,大型机器人目前大多还处于科研阶段,因此研究者更关注其泛化能力,即如何使机器人能够在家庭环境或服务行业中落地应用。
这种泛化性是他们研究的重点。而工业kuka机械臂则更注重精确操作,它们需要在流水线上进行精确操纵,因此更多地聚焦于操作的灵敏度和误差控制,比如要求误差控制在0.01毫米或0.1毫米以内,以确保在精细作业中的稳定性能。
至于医疗机器人,虽然我对其了解不多,但从我看过的一些医疗机器人的演讲和展台来看,它们更多侧重于如何减少抖动。例如,在远程操作机械臂进行手术时,人为的手抖可能会对患者造成伤害,而医疗机器人可以通过远程操作来模仿人类的操作,减少抖动,使手术更加顺利,避免大的意外发生。
总的来说,这些机器人的共同点可能更多地偏向于硬件方面。而我们这边主要研究策略、模型和感知阶段,与他们的应用场景相比,我们的研究重点有所不同。
具身智能落地怎么看?
哈尔滨工业大学陈含笑
:
我目前的工作偏向于机器人智能领域,但我认为要将这些研究成果实际落地应用,可能还需要一段时间。在人形机器人的整体发展过程中,如何实现与人更好的交流是一个关键问题,包括交互过程和环境感知能力。例如,机器人需要能够识别周围环境中的物体,并据此进行相应的操作。
我关注的工作主要集中在Google的Robotics团队,他们的研究成果非常先进。我在自己的工作中也在学习他们的理念。Google推出了一款名为Mobile的机器人,它能够移动并配有手爪,可以执行如在厨房中拿取杯子或倒水等任务。这些应用的落地需要时间,并且需要算法的不断推进和多学科知识的融合。
目前,我和大家可能主要是在做基础研究和探索,逐步推进这个领域的发展。通过这些研究,我们可以为未来的机器人应用打下坚实的基础,并逐步实现这些先进技术的实际应用。
现在手里有一款任意品牌的协作机械臂,该如何上手来入门端到端模型驱动机械臂抓取物体?
穆尧(香港大学博士
)
:如果手头有任意品牌的协作机械臂,可以通过端到端模型来驱动机械臂实现抓取。最终,可以通过ROS订阅节点或机械臂自带的SDK来实现控制。对于初学者来说,推荐使用AnyGrasp这样的模型来生成抓取姿态,然后调用运动规划模块执行抓取。
源自:穆尧博士团队
相关论
文
不是学传感器的,那如何搞定硬件问题?
安博施(北京大学):
该文工作中,我们需要使用深度相机来获取带有RGB和深度信息的输入。相机厂商在销售相机时已经考虑到了这个问题,提供了包括传感器底层驱动在内的各种支持。例如,我们使用的是RealSense相机,直接调用其Python包就可以获得一个包含RGBD四维信息的矩阵。尽管我们没有深入学习传感器,但通过调用这些包,我们能够轻松地获取所需的数据。
在实现力控控制器的过程中,我们需要处理一些更底层的硬件问题,比如如何通过ROS将每个关节上的力矩应用到机器人上,以及控制器的输入如何通过ROS通信获得。我们使用的是Franka Panda机械臂,它提供了一些示例控制器,我们通过学习这些控制器的编写方法,实现了一个基于C语言的力矩求解器。通过ROS,我们将计算出的力矩应用到机器人上。
总的来说,学习成本并不高,因为传感器厂商已经解决了大部分问题。在撰写这篇文章的过程中,我们没有遇到太多问题。如果你想要进行更深入的研究,比如改进传感器性能,那么可能需要对传感器有更深入的了解。
源自:安博施团队相关
论
文
基于状态空间模型的全新具身大模型构建,是否RLHF 可以与 RoboMamba 结合,提升模型的推理能力和操作策略?是否可行?