专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
运维  ·  资源节省 81%,作业帮 MySQL ... ·  昨天  
FM1031济南交通广播  ·  设6座车站!山东这条高铁,预计明年年底通车 ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

具身智能入门的必备算法和硬件有哪些?

自动驾驶之心  · 公众号  ·  · 2025-03-11 07:30

正文

最近很多同学咨询我们,具身智能入门的算法基础和硬件基础有哪些?盲目去学习没啥效果,而且会踩坑。今天就给大家汇总下具身智能涉及的主流子方向和技术栈:

视觉语言动作(VLA)

  • 算法 :VLA要求智能体根据视觉和语言输入生成动作。常用算法包括:
    • 多模态Transformer :用于融合视觉、语言和动作信息;
    • 强化学习(RL) :用于优化动作策略;
  • 学习路径
    • 学习多模态融合技术,掌握Transformer架构;
    • 研究VLA任务的经典论文和开源框架,包括显示端到端、隐式端到端、分层端到端方法等;
    • 熟悉数据的采集和生成;
    • 熟悉代码框架;

视觉语言导航(VLN)

  • 算法 :VLN要求智能体根据自然语言指令在环境中导航。常用算法包括:
    • 强化学习(RL) :通过奖励机制训练智能体导航;
    • 模仿学习(IL) :通过专家示范数据训练智能体;
    • 图神经网络(GNN) :用于建模环境中的空间关系;
  • 学习路径
    • 学习强化学习和模仿学习的基础知识;
    • 掌握图神经网络的基本概念和应用;
    • 研究VLN的经典数据集(如R2R)和仿真平台(如Matterport3D);

机械臂抓取

  • 算法 :机械臂抓取任务涉及物体检测、姿态估计和抓取规划。常用算法包括:
    • 6D姿态估计 :用于估计物体在三维空间中的位置和姿态;
    • 抓取生成网络(GG-CNN) :用于生成抓取点;
    • 强化学习 :用于优化抓取策略;
  • 学习路径
    • 学习计算机视觉中的物体检测和姿态估计技术,包括传统视觉抓取和端到端/深度学习方法;
    • 掌握机械臂运动学和动力学基础;
    • 研究抓取生成算法和强化学习在机器人中的应用;

视觉语言模型(VLM)

  • 算法 :VLM用于理解和生成与视觉内容相关的语言描述。常用算法包括:
    • CLIP :OpenAI提出的多模态模型,能够将图像和文本映射到同一空间;
    • BLIP :用于图像-文本生成和理解的模型;
    • ViLT :视觉和语言Transformer模型;
    • Qwen/internVL/Deepseek等:最新视觉语言大模型,可以微调执行下游任务;
  • 学习路径
    • 学习Transformer架构和多模态模型的基础知识;
    • 研究CLIP、BLIP等模型的论文和代码实现;
    • 大模型的微调、多任务、部署等;

扩散策略(Diffusion Policy)

  • 算法 :扩散策略是一种基于扩散模型的决策方法,用于生成连续动作序列。常用算法包括:
    • 扩散模型(Diffusion Models) :通过逐步去噪生成数据;
    • 行为克隆(Behavior Cloning) :通过模仿专家数据生成策略;
  • 学习路径
    • 学习扩散模型的基本原理和应用;
    • 研究扩散策略在机器人控制中的应用;
    • 扩散模型的策略生成任务;

强化学习

  • 算法 :强化学习用于优化智能体的决策策略。常用算法包括:
    • DQN :深度Q网络,用于离散动作空间;
    • PPO :近端策略优化,用于连续动作空间;
    • SAC






请到「今天看啥」查看全文