专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
一条漫画  ·  能不能放过我们这群笑点低的... ·  2 天前  
鼠绘情报站  ·  海贼王1139话情报分析丨关于贾巴的剧情整理 ... ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

盘点!近年Robot+AI标志性成果:从谷歌RT系列,到李飞飞的数字表亲

3D视觉工坊  · 公众号  ·  · 2024-12-09 07:00

正文

来源:深蓝AI

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

本文精选了8篇标志性研究,概述了 Robot与AI结合 的最新成果,这些研究覆盖了从多模态大模型的演进,到机器人在现实世界任务中的应用。 通过展示RT-2、RoboCat、MimicGen等项目的核心亮点,同各位读者一起洞察机器人智能化的演进脉络,把握发展方向,并预见其在未来应用中的无限潜力。

Robot +AI 的核心时间线与关键节点

· Google提出的Robot Transformer(RT)
该系列使用了 更大规模的语言模型和更多的具身智能任务数据 ,在大量具身智能任务中获得较好效果。
其中RT-1算法采用了EfficientNet-B3网络进行初始化,通过FiLM层将图像和自然语言指令结合起来,然后通过TokenLearner和Transformer模型直接输出动作。这种架构使得 RT-1能够以3Hz的速度执行闭环控制并命令动作 ,直到产生终止动作或耗尽预设时间步长,实现了高效的推理速度,使得实时控制成为可能。
RT-2在RT-1的基础上进一步发展, 实现了视觉语言模型与机器人动作的结合 。RT-2能够从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令,使得机器人能够像ChatGPT一样理解自然语言,并根据自然语言做出一系列动作。
RT系列证明了其模型能够吸收来自模拟环境或不同机器人类型的数据。
🔗 https://arxiv.org/pdf/2307.15818 ;https://arxiv.org/pdf/2212.06817

· 英伟达提出的MimicGen
这是一个机器人学习数据生成系统, 能够从少量的人类演示中自动生成大规模、多样化的数据集 。解决机器人学习过程中人工数据收集成本高、时间耗费大的问题。
MimicGen通过将人类演示分割成以对象为中心的片段,然后在新场景中通过空间变换这些片段、将它们拼接起来,并引导机器人沿着这条新轨迹运动,从而收集新的演示数据。这种方法在不显著增加人力成本的情况下,快速生成大量高质量的训练数据。
与传统需要大量人类演示数据的方法相比,MimicGen能够在 200次 人类演示的基础上,生成超过 50,000次 演示数据,涵盖了 18项 任务,这些任务涉及不同的场景配置、对象实例和机器人手臂。
而且,MimicGen适用于不同的模拟器,这意味着 它可以在多种模拟环境中生成数据 ,增强了其在不同应用场景下的适用性。
🔗 https://arxiv.org/pdf/2310.17596

· 谷歌提出的RoboCat
该模型在Gato的基础上进行了改进,能够学习在不同的机器人手臂上执行各种任务,并自动生成新的训练数据以提高其技能。
RoboCat可以从多样化的数据中快速学习新技能,并且可以从 少至100个演示中学习新任务 ,这种能力可以加速机器人研究,减少对人类监督培训的需求。具备良性的训练循环体系,学习的新任务越多,学习更多新任务的能力就越好。在从每个任务的500次演示中学习之后,RoboCat的初始版本在之前未见过的任务上仅成功了36%,但经过更多样化任务的训练后,成功率提高了一倍多。
RoboCat可以使用微调后的模型自主收集更多数据 ,然后将这些新数据并入下一个RoboCat训练迭代中,实现了一种自我完善的循环。
🔗 https://arxiv.org/pdf/2306.11706
· 英伟达提出的RoboCasa
这是一个用于训练通用机器人的大型模拟框架, 首次论证了Real2Sim2Real的可行性 。RoboCasa的核心亮点在于它提供了一个可微分的物理引擎,这个引擎可以在有限的真实机器人数据上进行训练。这些数据包括对机器人组件的物理属性(如质量和几何形状)的离线测量,以及使用随机控制策略观察到的轨迹。通过这些真实机器人的数据,引擎可以被迭代细化并用于发现可以直接转移到真实机器人的locomotion policies。此外,RoboCasa还引入了计算接触点的非零梯度、匹配 tensegrity locomotion gaits 的损失函数,以及避免在训练期间梯度评估冲突的轨迹分割技术。
它能够处理具有可变形元素的机器人 ,如tensegrity机器人,这些机器人由于其高维数、复杂动力学和耦合架构而难以控制。通过R2S2R策略,RoboCasa能够开发出可以转移到真实硬件的locomotion policies。
🔗 https://arxiv.org/pdf/2406.02523
· 李飞飞团队提出的Rekep
提出了关系关键点约束(ReKep), 将机器人操控任务表示为一系列空间-时间关系关键点约束(Relational Keypoint Constraints), 这些约束能够将机器人的动作与环境相联系 。通过这种方式,可以自动化地从自然语言指令和视觉观测中生成约束,并利用现有的求解器实时地优化机器人动作。
关系关键点约束 (ReKep) ReKep通过Python函数定义,将环境中的一组3D关键点映射到数值成本,以此表达任务的约束条件。
层次化优化 通过层次化的优化过程,将复杂的操控任务分解为多个阶段,每个阶段都有其子目标和路径约束。
自动化约束生成 利用大型视觉模型(LVM)和视觉-语言模型(VLM),从RGB-D观测和自由形式的语言指令中自动产生ReKep约束。
🔗 https://t.zsxq.com/OJs4d

· 1X Technologies(1X)推出的世界模型
解决的核心问题是 如何使机器人在复杂多变的真实环境中进行自我决策和适应
"世界模型"的核心特色在于其智能化和自主学习的能力。该模型能够理解机器人所接触的物理世界,并生成高保真的视频,使机器人能够在复杂的神经空间中进行规划、评估和模拟操作。传统的物理模拟方法往往难以适应大环境变化带来的挑战,且手动创建资产的复杂性高。而1X世界模型通过从原始传感器数据中学习,直接构建模拟器,能够在数百万种场景中评估机器人的行为,从而大大提高了机器人的适应性和智能性。
🔗 https://www.1x.tech/discover/1x-world-model
· 字节发布的第二代机器人大模型GR-2
GR-2具备 视频生成能力 ,能够通过输入图片和语言指令预测未来的视频,并生成相应的动作轨迹。它在多任务学习和泛化方面表现出色,完成了 105项 不同的桌面任务 ,平均成功率达到了 97.7% ,并在未知场景和物体上展现出泛化能力。
预训练阶段 ,GR-2通过观看 3800万个视频片段 进行生成式训练,这些视频涵盖了人类在不同场景下的各种日常活动。预训练后,GR-2通过在机器人轨迹数据上进行 微调 。GR-2的设计使其能够优雅地处理多个视角,接受标记化的语言指令、从多个视角捕获的图像序列和机器人状态序列作为输入,输出包括每个视角的未来图像和动作轨迹。
工业环境的端到端物体拣选任务中 ,它能够处理包括透明、可变形和反光物体在内的多种物体,以显著的优势超越了前代模型GR-1,将平均成功率从33.3%提高到79.0%。
🔗https://arxiv.org/pdf/2410.06158
· 李飞飞团队提出的数字表亲(ACDC)
该研究旨应对现实世界中的域转移问题。 Automated Creation of Digital Cousins for Robust Policy Learning ACDC 探讨了如何在现实世界中训练机器人策略。模拟提供了一个 廉价且理论上无限的训练数据源 ,但存在模拟环境与现实世界之间的语义和物理差异问题。
为了解决这些限制,提出了“数字表亲”(Digital Cousins)的概念,这是一种虚拟资产或场景, 与数字孪生(Digital Twins)不同,它不显式地模拟现实世界的对应物,但仍然展现出类似的几何和语义属性。
数字表亲的核心优势在于,它们降低了生成类似虚拟环境的成本,同时通过提供一组类似的训练场景,促进了更好的鲁棒性,以应对现实世界中的域转移问题。文章介绍了一种自动化创建数字表亲的新方法,并提出了一个完全自动化的从Real到Sim再到Real的pipeline,用于生成完全交互式场景,并训练可以在原始场景中 零样本部署 的机器人策略。
🔗https://arxiv.org/pdf/2410.07408

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文