专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
51好读  ›  专栏  ›  数据派THU

【AAAI2025教程】基础模型与具身智能体的交汇

数据派THU  · 公众号  · 大数据  · 2025-04-03 17:00

正文

请到「今天看啥」查看全文


来源:专知

本文约1000字,建议阅读5分钟

本文将涵盖基础模型向大型语言模型、视觉-语言模型(Vision-Language Models)以及视觉-语言-动作模型(Vision-Language-Action Models)的演进。


图片
基础模型与具身智能体的交汇

具身智能体是一种通用型智能体,能够接收人类的自然语言指令,并在多样化的环境中执行广泛的任务。近年来,大型语言模型(Large Language Models, LLMs)作为构建大型智能体模型(Large Agent Models)的强大工具崭露头角,在支持具身智能体实现目标解析、子目标分解、动作序列化以及状态转换建模(从前提到后效的因果转换)等能力方面取得了显著成功。

然而,从基础模型(Foundation Models)到具身智能体的发展过程中,理解低层次视觉细节以及实现长时程推理以支持可靠的具身决策,仍然面临重大挑战。本文将涵盖基础模型向大型语言模型、视觉-语言模型(Vision-Language Models)以及视觉-语言-动作模型(Vision-Language-Action Models)的演进。在本教程中,我们将全面回顾现有具身智能体基础模型的范式,并基于机器人学习的基本数学框架——马尔可夫决策过程(Markov Decision Process, MDP),聚焦其不同的形式化方法,同时提供一个结构化视角来研究机器人的决策过程。

图片
图片
图片
图片
图片
图片
图片
图片


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号: 数据派THU

今日头条: 数据派THU








请到「今天看啥」查看全文