点击下方
卡片
,关注
「3DCV」
公众号
选择
星标
,干货第一时间送达
来源:计算机视觉life
添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「
3D视觉从入门到精通
」知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门独家秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
标题:CYBER: A General Robotic Operation System for Embodied AI
作者:
Prof. Peng Yin,
Cheng Yang,
Shiqi Zhao
代码链接:https://github.com/CyberOrigin2077/Cyber
在机器人学领域,世界模型的发展始终是高级研究的基石。然而,大多数方法都严重依赖于庞大且特定于平台的数据集。这些数据集虽然有其价值,但往往限制了模型的可扩展性和对不同机器人平台的泛化能力,从而限制了它们的更广泛应用。
相比之下,CYBER则从“第一原理”的角度出发,对世界建模进行了革新。它借鉴了人类如何通过经验和与环境的互动自然地获得技能的机制。CYBER是首个旨在同时适应远程操控和人类操作数据的通用机器人操作系统,它赋予机器人在广泛的任务和环境中进行学习和预测的能力。该系统构建了一个物理世界模型、一个跨具身的视觉-语言-动作模型(VLA)、一个感知模型、一个记忆模型以及一个控制模型,以支持机器人在各种任务和体现形式中进行学习、预测和记忆。
同时,CYBER还在HuggingFace 平台上提供了数百万个人类操作数据集和基线模型,以增强具身学习。此外,它还提供了实验评估工具箱,帮助研究人员在模拟环境和真实世界中测试并评估他们的模型。
-
模块化:采用模块化架构构建,允许在各种环境中灵活应用。
-
数据驱动:利用数百万人类操作数据集来增强具身学习。
-
可扩展性:能够跨不同机器人平台进行扩展,适应新环境和任务。
-
可定制化:允许定制和微调以满足特定需求。
-
可扩展性:支持添加新模块和功能,增强能力。
-
开源:开源且免费提供,促进合作和创新。
-
实验性:支持实验和测试,实现持续改进。
CYBER采用模块化架构构建,以实现灵活性和可定制性。以下是关键组件:
-
世界模型
:通过物理交互学习,以理解和预测环境。
-
动作模型
:通过动作和交互学习,执行任务和导航。
-
感知模型
:处理感官输入,以感知和解释周围环境。
-
记忆模型
:利用过去的经验来指导当前的决策。
-
控制模型
:管理移动和交互的控制输入。
您的机器上需要安装Anaconda。如果您尚未安装,请按照此处的安装说明进行操作。
-
创建一个干净的conda环境:
conda create -n cyber python=3.10 && conda activate cyber
-
安装PyTorch和torchvision:
conda install pytorch==2.3.0 torchvision==0.18.0 cudatoolkit=11.1 -c pytorch -c nvidia
-
安装CYBER包:
CYBER 利用 Hugging Face 的强大功能来实现模型共享和协作。您可以轻松通过 Hugging Face 平台访问和使用我们的模型。
我们的预训练模型将很快在 Hugging Face 上发布:
要在您的项目中使用我们的模型,您可以安装 transformers 库并按如下方式加载模型:
from transformers import AutoModel, AutoTokenizer
#Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("cyberorigin/cyber-base")
model = AutoModel.from_pretrained("cyberorigin/cyber-base")
#Example usage
inputs = tokenizer("Hello, world!", return_tensors="pt")
outputs = model(**inputs)
有关更多详细信息,请参阅 Hugging Face 的官方文档。
如需了解数据下载和模型训练方面的更多细节,请参阅相关实验说明。
├── ...
├── docs # documentation files and figures
├── docker # docker files for containerization
├── examples # example code snippets
├── tests # test cases and scripts
├── scripts # scripts for setup and utilities
├── experiments # model implementation and details
│ ├── configs # model configurations
│ ├── models # model training and evaluation scripts
│ ├── notebooks # sample notebooks
│ └── ...
├── cyber # compression, model training, and dataset source code
│ ├── dataset # dataset processing and loading
│ ├── utils # utility functions
│ └── models # model definitions and architectures
│ ├── action # visual language action model
│ ├── control # robot platform control model
│ ├── memory # lifelong memory model
│ ├── perception # perception and scene understanding model
│ ├── world # physical world model
│ └── ...
└── ...