专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
哔哩哔哩  ·  五毛特效拍哪吒,我的笑点和泪点在打架 ·  2 天前  
哔哩哔哩  ·  30岁母单和25岁早婚,婚恋观差别有多大? ·  2 天前  
哔哩哔哩  ·  被章子怡轰下台,他犯了哪些面试大忌 ·  3 天前  
哔哩哔哩  ·  B站2024第四季度及全年财报来啦! ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

具身智能==通用人形机器人+LLM?它只是一种实现方式

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-05-16 00:11

正文

人形机器人是一种模仿人类外形和行为的机器人,它具有高度的灵活性和适应性,可以在复杂多变的环境中完成各种任务。人形机器人是人工智能领域的一个重要研究方向,也是人类社会进步的一个重要推动力。

近年来,随着深度学习技术的发展,大型语言模型(Large Language Model, LLM)成为了自然语言处理领域的一颗新星。LLM可以理解和生成人类语言,实现多种自然语言任务,如文本分类、问答、摘要、对话等。LLM也被应用到了其他领域,如计算机视觉、强化学习、多模态融合等。

那么,如果将LLM与人形机器人结合起来,会产生什么样的效果呢?是否可以实现一种具有自主学习能力、泛化能力和交互能力的具身智能(Embodied Intelligence)呢?本文将探讨这些问题,并介绍一些相关的科研和商业案例。

波士顿动力在LLM爆火之前是怎么做机器人的

波士顿动力是一家美国工程和机器人设计公司,由Marc Raibert于1992年创立,总部位于美国马萨诸塞州沃尔瑟姆。波士顿动力以开发具有高度灵活性和运动性能的足式机器人而闻名,其产品包括四足机器人Spot、物流机器人Stretch和人形机器人Atlas。

在LLM爆火之前,波士顿动力是通过多年的研发和迭代,不断提升机器人的感知、控制、规划和学习能力,实现了从蹒跚学步到跑酷、跳舞等高难度动作的转变。其中,Atlas作为波士顿动力的旗舰产品,展示了最为惊艳的技术成果。

Atlas跑酷背后的技术主要涉及以下三方面:

•  跑酷认知能力:Atlas使用TOF深度相机以每秒15帧的速度生成环境的点云,点云是测距的大规模集合。TOF(Time of flight)直译为飞行时间。其测距原理是通过给目标连续发送光脉冲,然后用传感器接收从物体返回的光,通过探测光脉冲的飞行(往返)时间来得到目标物距离。Atlas使用感知算法将点云转换为高级地图(semantic map),高级地图包含了环境中不同类型的物体和障碍物的位置和属性信息。Atlas根据高级地图来规划自己的行动路径和策略。

•  Atlas行为库:Atlas拥有一个丰富的行为库(behavior library),包含了各种基本和复杂的运动模式,如行走、跳跃、翻滚、倒立等。每种行为都有一个对应的控制器(controller),控制器是一种算法,可以根据输入的状态和目标输出相应的控制信号。Atlas可以根据环境和任务选择合适的行为和控制器来执行。

•  模型预测控制:模型预测控制(Model Predictive Control, MPC)是一种先进的控制方法,可以让Atlas在执行行为时考虑未来可能发生的情况,并提前做出调整。MPC需要一个预测模型(prediction model),预测模型是一种数学模型,可以根据当前状态和控制信号预测未来状态。Atlas使用基于神经网络的预测模型来估计自己在执行行为时可能遇到的障碍物、摩擦力、重心偏移等因素,并根据预测结果优化控制信号,从而保持平衡和稳定。

波士顿动力在LLM爆火之前就已经展示了其在机器人领域的领先地位和创新能力,其技术成果也受到了国内外的广泛关注和赞誉。然而,波士顿动力并没有停止探索和进步,它也在尝试将LLM技术应用到机器人中,以提升机器人的语言理解和生成能力,实现更自然和智能的交互。

国内一些通用人形机器人:

•  智元机器人:这是一家成立于2019年的创新型公司,它以LLM模型为核心,实现自主学习、泛化和交互能力,首款产品远征A1具有高度仿生性和运动性能。它已经完成了三轮融资,市值达到十几亿美元。

•  优必选:这是一家成立于2008年的领先型公司,它以Walker X为代表的人形机器人,具有多场景适应能力和高度智能化交互能力。它已经完成了六轮融资,市值超过百亿美元。
•  傅利叶智能:这是一家成立于2015年的专业型公司,它以GR-1为代表的通用人形机器人,具有高精度的运动控制和感知能力,可应用于工业、康复、居家等领域。
•  追觅科技:这是一家成立于2018年的创新型公司,它以通用人形机器人和仿生四足机器狗Eame One二代为代表的产品,具有高度仿生性和视觉感知能力,集成了AI大型语言模型。它已经完成了两轮融资。
•  达闼科技:这是一家成立于2016年的专业型公司,它以Cloud Ginger 2.0为代表的通用人形机器人,具有多功能的灵巧手和自主导航能力,可应用于卖场促销、直播卖货、教育科研等领域。它已经完成了两轮融资,市值未知。
小米铁大机器人:是一款全尺寸的人形仿生机器人,它是小米机器人Cyber家族的新成员,也叫CyberOne。它具有高情商、可感知人类情绪,视觉敏锐、可对真实世界三维虚拟重建,“小脑”发达、可实现双足运动姿态平衡,四肢强健、动力峰值扭矩300Nm等领先技术能力。它于2022年8月11日在小米秋季新品发布会上正式亮相,引起了国内外的广泛关注和讨论。它是小米对智能机器人发展的一次探索,也是小米多元融合技术体系的全新成果。

通用人形机器人+LLM

通用人形机器人+LLM是指具有自主学习能力、泛化能力和交互能力的具有身体的智能体,能够适应复杂多变的环境和任务。其中,通用人形机器人是指可以执行多种类型和难度的任务的人形机器人,而LLM是指可以理解和生成人类语言的大型语言模型。

通用人形机器人+LLM的核心思想是利用LLM作为一个统一的框架,来实现对环境、任务和用户的理解和生成。具体来说,通用人形机器人+LLM可以通过以下几个方面来实现:

•  数据中心建设:数据是具身智能机器人的核心门槛,因为数据决定了机器人的学习效率和表现水平。因此,需要建立一个专门的数据中心,用于收集和生成各种类型的数据,包括监督学习数据、仿真数据和自动生成数据。这些数据将用于训练和优化LLM模型,提升机器人的泛化能力。

•  硬件结构迭代重构:硬件结构是具身智能机器人的基础支撑,因为硬件结构决定了机器人的运动性能和控制精度。因此,需要对硬件结构进行迭代重构,采用自研路线,如自研关节电机和灵巧手等核心部件,以降低成本和提高效率。同时,也需要利用软件和算法弥补硬件方面的精度要求,降低硬件成本。

•  产品价格控制:产品价格是具身智能机器人的商业化门槛,因为产品价格决定了机器人的市场需求和竞争力。因此,需要对产品价格进行控制,使其在一个合理的区间内,既能覆盖成本,又能吸引用户。这需要通过自研核心部件和软硬件协同优化等方式来控制成本,并且寻找一些潜在的合作伙伴来提供资金支持。

•  应用场景拓展:应用场景是具身智能机器人的价值体现,因为应用场景决定了机器人的实用性和影响力。因此,需要对应用场景进行拓展,寻找一些有需求、有挑战、有潜力的领域,如工业制造、家庭服务、教育娱乐、医疗护理等。这需要与一些政府机构、企业组织、社会团体等进行合作,建立一些试点项目和示范区。

•  沿途下蛋策略:沿途下蛋策略是指在走向通用人形机器人的终极目标的过程中,利用沿途产生的技术成果和创新产品来实现短期的回报和反馈。这样可以在追求长期目标的同时,也能保持动力和活力。例如,在开发关节电机的过程中,可以生产出一些高性能的机械臂产品,在开发灵巧手的过程中,可以生产出一些高灵活度的手部产品,等等。

通用人形机器人+LLM与具身智能

具身智能是指有身体并支持物理交互的智能体,具备感知、思考、学习、决策等能力,能够与环境进行交互。具身智能是通用人工智能(AGI)的一个重要方向,也是人工智能的下一个里程碑式目标。

通用人形机器人+LLM可以看作是具身智能的一种实现方式,但不是唯一的方式。具身智能还需要考虑其他方面的技术和挑战,如:

•  机器人硬件设计:机器人硬件设计是指设计机器人的外形、结构、材料、传感器、执行器等物理部件,使其符合人形机器人的功能和性能要求。机器人硬件设计需要考虑机器人的稳定性、灵活性、耐久性、安全性等因素,并且需要与软件和算法相匹配。

•  多模态感知融合:多模态感知融合是指利用多种类型的传感器(如视觉、听觉、触觉等)来获取环境和自身的信息,并将这些信息进行整合和分析,从而提高感知效果和精度。多模态感知融合需要解决数据异构性、数据不完整性、数据不一致性等问题,并且需要与控制和规划相协调。

•  场景图理解:场景图理解是指利用图结构来表示环境中不同类型的物体和障碍物以及它们之间的关系和属性,并根据图结构来推理和预测环境的变化和动态。场景图理解需要解决图生成、图更新、图查询、图推理等问题,并且需要与感知和规划相结合。

•  视觉导航:视觉导航是指利用视觉信息来指导机器人在环境中移动和定位,实现目标导向的行为。视觉导航需要解决地图构建、定位估计、路径规划、避障控制等问题,并且需要与其他模态的感知和控制相协调。

•  神经形态计算:神经形态计算是指模仿生物神经系统的结构和功能,设计出高效、低功耗、自适应的计算系统。神经形态计算需要解决神经元模型、神经网络架构、学习算法、硬件实现等问题,并且需要与软件和算法相兼容。

因此,通用人形机器人+LLM虽然是具身智能的一种有前景的实现方式,但也需要不断地创新和突破,才能真正达到具身智能的水平。


具身智能的发展前景与应用实例:

具身智能的发展前景: 具身智能是人工智能的一个重要方向,也是人类社会进步的一个重要推动力。具身智能的目标是让机器人能够像人类一样,通过身体和环境的交互来感知、思考、学习和决策,从而完成各种复杂和多样的任务。具身智能的发展将带来以下几个方面的好处:

  1. 提高生产效率和质量:具身智能机器人可以在工业制造、物流运输、农业种植等领域,替代人力完成一些危险、重复或者枯燥的工作,从而提高生产效率和质量,降低成本和风险。

  2. 改善生活服务和品质:具身智能机器人可以在家庭服务、教育娱乐、医疗护理等领域,提供一些个性化、专业化或者互动化的服务,从而改善生活服务和品质,增加幸福感和满意度。

  3. 推动科学研究和创新:具身智能机器人可以在科学探索、技术开发、艺术创作等领域,协助人类进行一些难以实现或者超越想象的研究和创新,从而推动科学研究和创新,拓展知识边界和视野。


具身智能的应用实例: 具身智能已经在一些领域取得了一些突破和成就,以下是一些具身智能的应用实例:

  1. •  远征A1:这是一款由中国智元机器人公司开发的通用人形机器人,它以LLM模型为核心,实现自主学习、泛化和交互能力,首款产品远征A1具有高度仿生性和运动性能。它已经完成了三轮融资,市值达到十几亿美元 。







请到「今天看啥」查看全文