本文约1000字,建议阅读5分钟
本文将涵盖基础模型向大型语言模型、视觉-语言模型(Vision-Language Models)以及视觉-语言-动作模型(Vision-Language-Action Models)的演进。
具身智能体是一种通用型智能体,能够接收人类的自然语言指令,并在多样化的环境中执行广泛的任务。近年来,大型语言模型(Large Language Models, LLMs)作为构建大型智能体模型(Large Agent Models)的强大工具崭露头角,在支持具身智能体实现目标解析、子目标分解、动作序列化以及状态转换建模(从前提到后效的因果转换)等能力方面取得了显著成功。
然而,从基础模型(Foundation Models)到具身智能体的发展过程中,理解低层次视觉细节以及实现长时程推理以支持可靠的具身决策,仍然面临重大挑战。本文将涵盖基础模型向大型语言模型、视觉-语言模型(Vision-Language Models)以及视觉-语言-动作模型(Vision-Language-Action Models)的演进。在本教程中,我们将全面回顾现有具身智能体基础模型的范式,并基于机器人学习的基本数学框架——马尔可夫决策过程(Markov Decision Process, MDP),聚焦其不同的形式化方法,同时提供一个结构化视角来研究机器人的决策过程。
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:
数据派THU
今日头条:
数据派THU