主要观点总结
文章介绍了科技圈的两个大浪潮:大模型浪潮和具身智能浪潮,尤其是人形机器人。文章详细解释了具身智能的概念、技术栈基石、与传传统机器人的差别、前沿研究内容、模拟器的作用、智能体的研究领域和目标等。此外,文章还涉及具身智能开发的基础知识,包括编程语言、数据结构、深度学习框架、嵌入式开发等。最后,文章介绍了人形机器人的关节和结构以及相关的零部件如线性关节、旋转关节、关节传感器和关节驱动系统等。
关键观点总结
关键观点1: 大模型浪潮和具身智能浪潮成为科技圈的两大焦点。
具身智能是实现在物理和数字世界中理解和互动的关键,由本体和智能体组成。
关键观点2: 具身智能通过学习和进化适应新环境,解决现实问题。
数据在具身智能中起到泛化和训练的重要作用。
关键观点3: 具身智能的模式与传统机器人不同,机器人本体能够根据读取到的信息进行任务的分解和环境的理解。
大模型帮助机器人理解消化知识,构成智能体;机器人本体则延续传统机器人的知识,解决物理环境下的实际问题。
关键观点4: 具身智能前沿研究包括各种机器人类型如固定基机器人、轮式机器人、履带式机器人和人形机器人的主要应用领域和技术细节。
模拟器在具身智能研究中扮演重要角色,提供虚拟环境进行低成本、高效实验。
关键观点5: 智能体的研究领域包括具身感知、3D场景理解、主动视觉感知、具身交互等,并介绍了相关的主要目标和具体方法。
具身任务规划和模拟到真实世界的适应是具身智能开发的两个重要方面。
关键观点6: 人形机器人的核心关节包括线性关节、旋转关节等,涉及复杂的供应商网络和零部件选择。
人形机器人的开发涉及到编程、数据结构、深度学习、嵌入式开发等多领域知识。
正文
目前整个科技圈的大浪潮有两个,一个是由ChatGPT开始爆火的大模型浪潮,另一个就是大家目前看到几乎科技圈大厂都在卷的人形机器人,更广泛一点的称呼叫具身智能浪潮。尤其是从上周世界机器人大会看到国内外企业在人形机器人的投入和展示,内心只能说机器人的时代快来了!
具身智能
是通过在物理和数字世界中的学习和进化,实现理解世界、互动交互并完成任务的目标。我们一般认为它由“本体”和“智能体”组成,并在复杂环境中执行任务。
最终的目标
是:智能体通过与物理世界(虚拟或真实)的交互,适应新环境、学习新知识并解决实际问题。
从具身智能的概念来看,其实是大家希望具身智能本体能够帮助人解决实际问题,从而解放大家的生产力。
回到我们现在已有的模式,机器人本体是如何帮助大家解决问题呢?最常见的做法就是定义了需求之后,由工程师通过编程或者示教等手段定制化的到某一个场景下去解决问题,机器人本身并不能够思考并找到代码之外的解决思路。
具身智能的模式
则存在一些不同,一般具身智能本体也会有传感器,比如视觉和语言等,结合到视觉信号、语音信息,机器人本体就能根据读取到的信息进行任务的分解和环境的理解,然后通过自己编程实现自己要完成的事情。
两种模式
的差别就在于,一种是人在教机器做事,另一种是机器人自己在学习人的模式去做事。大家会发现具身智能就有点像是深度学习和传统机器人的结合体。
机器人本体
|
|
|
|
|
|
|
Franka Emika Panda, Kuka iiwa, Sawyer
|
|
|
|
Kiva 机器人, Jackal 机器人
|
|
|
|
PackBot
|
|
|
|
Unitree A1, Go1, Boston Dynamics Spot, ANYmal C
|
|
|
|
Atlas, HRP 系列, ASIMO, Pepper
|
|
|
|
鱼类机器人, 昆虫机器人, 软体机器人
|
数据来源——模拟器
模拟器在具身智能中起到了至关重要的作用,通过提供虚拟环境,帮助研究人员进行成本低、安全性高和可扩展性强的实验和测试。
通用模拟器
通用模拟器提供了一个与物理世界高度相似的虚拟环境,用于算法开发和模型训练,具有显著的成本、时间和安全优势。
具体模拟器案例分析:
-
Isaac Sim:一个先进的机器人和AI研究模拟平台,具有高保真物理仿真、实时光线追踪和丰富的机器人模型库,应用场景包括自动驾驶、工业自动化和人机交互。
-
Gazebo:一个开源的机器人研究模拟器,支持各种传感器仿真和多机器人系统仿真,主要用于机器人导航和控制。
-
PyBullet:Bullet物理引擎的Python接口,易于使用,支持实时物理仿真,主要用于强化学习和机器人仿真。
基于真实场景的模拟器
这些模拟器通过收集真实世界的数据,创建高度逼真的3D场景,使其成为家庭活动中的具身智能研究的首选。
具体模拟器案例分析:
-
AI2-THOR:基于Unity3D的室内具身场景模拟器,包含丰富的交互式场景对象和物理属性,适用于多代理模拟和复杂任务的研究。
-
Matterport 3D:一个大型2D-3D视觉数据集,包含丰富的室内场景,广泛用于具身导航基准测试。
-
Habitat:一个开源的大规模人机交互模拟器,基于Bullet物理引擎,提供高性能、高速、并行的3D模拟和丰富的接口,适用于强化学习的具身智能研究。
智能体
|
|
|
|
|
传统vSLAM(MonoSLAM、PTAM、ORB-SLAM)、语义vSLAM(SLAM++、DynaSLAM)
|
|
投影法(MV3D)、体素法(VoxNet)、点云法(PointNet)
|
|
交互式环境探索(Pinto等)、视觉方向变化的探索(Jayaraman等)
|
|
非视觉触觉传感器(BioTac)、视觉触觉传感器(GelSight)
|
|
|
双阶段方法(ReferIt3D、TGNN)、单阶段方法(3D-SPS、BUTD-DETR)
|
|
基于记忆与理解的方法(LVERG)、基于未来预测的方法(LookBY)
|
对话系统中的具身交互
|
基于大模型的对话系统(DialFRED)、多智能体协作(DiscussNav)
|
|
多模态基础模型
|
多模态数据融合与表示(VisualBERT)、代表性模型与应用(UNITER)
|
具身任务规划
|
任务分解与执行(HAPI)、复杂任务的规划与实现(TAMP)
|
|
具身世界模型
|
世界模型的模拟与理解(Dreamer)、实际应用案例分析(PlaNet)
|
数据收集与训练
|
数据集的创建与优化(Gibson)
|
具身控制
|