专栏名称: 新机器视觉
最前沿的机器视觉与计算机视觉技术
目录
相关文章推荐
企业专利观察  ·  汤森路透的胜利,是否为“AI版权化”开了绿灯 ·  昨天  
企业专利观察  ·  汤森路透的胜利,是否为“AI版权化”开了绿灯 ·  昨天  
看金坛  ·  违规微短剧下架!抖音、快手发布公告 ·  昨天  
看金坛  ·  违规微短剧下架!抖音、快手发布公告 ·  昨天  
闽南日报  ·  抖音、快手、微信同日宣布:下架! ·  2 天前  
闽南日报  ·  抖音、快手、微信同日宣布:下架! ·  2 天前  
SEO实战营  ·  AI颠覆SEO:DeepSeek三个月流量暴 ... ·  3 天前  
SEO实战营  ·  AI颠覆SEO:DeepSeek三个月流量暴 ... ·  3 天前  
51好读  ›  专栏  ›  新机器视觉

你真的知道什么是具身智能吗?一文带你了解!

新机器视觉  · 公众号  · 科技自媒体  · 2024-09-24 09:00

主要观点总结

文章介绍了科技圈的两个大浪潮:大模型浪潮和具身智能浪潮,尤其是人形机器人。文章详细解释了具身智能的概念、技术栈基石、与传传统机器人的差别、前沿研究内容、模拟器的作用、智能体的研究领域和目标等。此外,文章还涉及具身智能开发的基础知识,包括编程语言、数据结构、深度学习框架、嵌入式开发等。最后,文章介绍了人形机器人的关节和结构以及相关的零部件如线性关节、旋转关节、关节传感器和关节驱动系统等。

关键观点总结

关键观点1: 大模型浪潮和具身智能浪潮成为科技圈的两大焦点。

具身智能是实现在物理和数字世界中理解和互动的关键,由本体和智能体组成。

关键观点2: 具身智能通过学习和进化适应新环境,解决现实问题。

数据在具身智能中起到泛化和训练的重要作用。

关键观点3: 具身智能的模式与传统机器人不同,机器人本体能够根据读取到的信息进行任务的分解和环境的理解。

大模型帮助机器人理解消化知识,构成智能体;机器人本体则延续传统机器人的知识,解决物理环境下的实际问题。

关键观点4: 具身智能前沿研究包括各种机器人类型如固定基机器人、轮式机器人、履带式机器人和人形机器人的主要应用领域和技术细节。

模拟器在具身智能研究中扮演重要角色,提供虚拟环境进行低成本、高效实验。

关键观点5: 智能体的研究领域包括具身感知、3D场景理解、主动视觉感知、具身交互等,并介绍了相关的主要目标和具体方法。

具身任务规划和模拟到真实世界的适应是具身智能开发的两个重要方面。

关键观点6: 人形机器人的核心关节包括线性关节、旋转关节等,涉及复杂的供应商网络和零部件选择。

人形机器人的开发涉及到编程、数据结构、深度学习、嵌入式开发等多领域知识。


正文

目前整个科技圈的大浪潮有两个,一个是由ChatGPT开始爆火的大模型浪潮,另一个就是大家目前看到几乎科技圈大厂都在卷的人形机器人,更广泛一点的称呼叫具身智能浪潮。尤其是从上周世界机器人大会看到国内外企业在人形机器人的投入和展示,内心只能说机器人的时代快来了!


具身智能是什么?它有什么关键组成部分?

具身智能 是通过在物理和数字世界中的学习和进化,实现理解世界、互动交互并完成任务的目标。我们一般认为它由“本体”和“智能体”组成,并在复杂环境中执行任务。


最终的目标 是:智能体通过与物理世界(虚拟或真实)的交互,适应新环境、学习新知识并解决实际问题。

  • 本体: 机器人本体,在物理环境或者虚拟环境中进行感知和任务执行。

  • 智能体: 具身于本体之上的智能核心,负责感知、理解、决策和控制。

  • 数据: 用于泛化和训练。


具身智能的技术栈基石是什么?

从具身智能的概念来看,其实是大家希望具身智能本体能够帮助人解决实际问题,从而解放大家的生产力。


回到我们现在已有的模式,机器人本体是如何帮助大家解决问题呢?最常见的做法就是定义了需求之后,由工程师通过编程或者示教等手段定制化的到某一个场景下去解决问题,机器人本身并不能够思考并找到代码之外的解决思路。


具身智能的模式 则存在一些不同,一般具身智能本体也会有传感器,比如视觉和语言等,结合到视觉信号、语音信息,机器人本体就能根据读取到的信息进行任务的分解和环境的理解,然后通过自己编程实现自己要完成的事情。


两种模式 的差别就在于,一种是人在教机器做事,另一种是机器人自己在学习人的模式去做事。大家会发现具身智能就有点像是深度学习和传统机器人的结合体。

  • 大模型可以帮助机器人去理解消化知识,构成了机器人的智能体;

  • 机器人本体则依旧延续机器人传统知识,真实的去解决实际物理环境下的运动。


具身智能的前沿研究有哪些?

机器人本体

机器人类型

主要应用领域

技术细节

代表性机器人

固定基机器人

实验室自动化、教育训练、工业制造

高精度传感器和执行器、编程灵活性、微米级精度

Franka Emika Panda, Kuka iiwa, Sawyer

轮式机器人

物流、仓储、安全检查

结构简单、成本低、能效高、快速移动

Kiva 机器人, Jackal 机器人

履带式机器人

农业、建筑、灾后恢复、军事应用

强大的越野能力和机动性、稳定性和牵引力

PackBot

四足机器人

复杂地形探索、救援任务、军事应用

多关节设计、适应性强、环境感知能力强

Unitree A1, Go1, Boston Dynamics Spot, ANYmal C

人形机器人

服务行业、医疗保健、协作环境

类人外形、多自由度手设计、复杂任务执行能力

Atlas, HRP 系列, ASIMO, Pepper

仿生机器人

医疗保健、环境监测、生物研究

模拟自然生物的运动和功能、柔性材料和结构

鱼类机器人, 昆虫机器人, 软体机器人


数据来源——模拟器

模拟器在具身智能中起到了至关重要的作用,通过提供虚拟环境,帮助研究人员进行成本低、安全性高和可扩展性强的实验和测试。


通用模拟器

通用模拟器提供了一个与物理世界高度相似的虚拟环境,用于算法开发和模型训练,具有显著的成本、时间和安全优势。

具体模拟器案例分析:

  • Isaac Sim:一个先进的机器人和AI研究模拟平台,具有高保真物理仿真、实时光线追踪和丰富的机器人模型库,应用场景包括自动驾驶、工业自动化和人机交互。

  • Gazebo:一个开源的机器人研究模拟器,支持各种传感器仿真和多机器人系统仿真,主要用于机器人导航和控制。

  • PyBullet:Bullet物理引擎的Python接口,易于使用,支持实时物理仿真,主要用于强化学习和机器人仿真。


基于真实场景的模拟器

这些模拟器通过收集真实世界的数据,创建高度逼真的3D场景,使其成为家庭活动中的具身智能研究的首选。

具体模拟器案例分析:

  • AI2-THOR:基于Unity3D的室内具身场景模拟器,包含丰富的交互式场景对象和物理属性,适用于多代理模拟和复杂任务的研究。

  • Matterport 3D:一个大型2D-3D视觉数据集,包含丰富的室内场景,广泛用于具身导航基准测试。

  • Habitat:一个开源的大规模人机交互模拟器,基于Bullet物理引擎,提供高性能、高速、并行的3D模拟和丰富的接口,适用于强化学习的具身智能研究。


智能体

研究领域

主要目标

具体方法

具身感知

视觉同时定位与地图构建(vSLAM)

传统vSLAM(MonoSLAM、PTAM、ORB-SLAM)、语义vSLAM(SLAM++、DynaSLAM)

3D 场景理解

投影法(MV3D)、体素法(VoxNet)、点云法(PointNet)

主动视觉感知

交互式环境探索(Pinto等)、视觉方向变化的探索(Jayaraman等)

触觉感知

非视觉触觉传感器(BioTac)、视觉触觉传感器(GelSight)

具身交互

3D视觉定位

双阶段方法(ReferIt3D、TGNN)、单阶段方法(3D-SPS、BUTD-DETR)

视觉语言导航(VLN)

基于记忆与理解的方法(LVERG)、基于未来预测的方法(LookBY)

对话系统中的具身交互

基于大模型的对话系统(DialFRED)、多智能体协作(DiscussNav)

具身代理

多模态基础模型

多模态数据融合与表示(VisualBERT)、代表性模型与应用(UNITER)

具身任务规划

任务分解与执行(HAPI)、复杂任务的规划与实现(TAMP)

模拟到真实(Sim-to-Real)适应

具身世界模型

世界模型的模拟与理解(Dreamer)、实际应用案例分析(PlaNet)

数据收集与训练

数据集的创建与优化(Gibson)

具身控制







请到「今天看啥」查看全文