【AAAI2025教程】基础模型与具身智能体的交汇

数据派THU · 公众号 · 大数据 · 2025-04-03 17:00

正文

请到「今天看啥」查看全文

来源：专知
本文约1000字，建议阅读5分钟
本文将涵盖基础模型向大型语言模型、视觉-语言模型（Vision-Language Models）以及视觉-语言-动作模型（Vision-Language-Action Models）的演进。

基础模型与具身智能体的交汇

具身智能体是一种通用型智能体，能够接收人类的自然语言指令，并在多样化的环境中执行广泛的任务。近年来，大型语言模型（Large Language Models, LLMs）作为构建大型智能体模型（Large Agent Models）的强大工具崭露头角，在支持具身智能体实现目标解析、子目标分解、动作序列化以及状态转换建模（从前提到后效的因果转换）等能力方面取得了显著成功。

然而，从基础模型（Foundation Models）到具身智能体的发展过程中，理解低层次视觉细节以及实现长时程推理以支持可靠的具身决策，仍然面临重大挑战。本文将涵盖基础模型向大型语言模型、视觉-语言模型（Vision-Language Models）以及视觉-语言-动作模型（Vision-Language-Action Models）的演进。在本教程中，我们将全面回顾现有具身智能体基础模型的范式，并基于机器人学习的基本数学框架——马尔可夫决策过程（Markov Decision Process, MDP），聚焦其不同的形式化方法，同时提供一个结构化视角来研究机器人的决策过程。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号： 数据派THU

今日头条： 数据派THU