专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
8099999街头巷尾  ·  微信牵手DeepSeek?有人趁虚而入,这种 ... ·  昨天  
8099999街头巷尾  ·  微信牵手DeepSeek?有人趁虚而入,这种 ... ·  昨天  
金色旋风  ·  AI代写剧本,100块起步,卖了300万! ·  昨天  
金色旋风  ·  AI代写剧本,100块起步,卖了300万! ·  昨天  
MiyueMedia  ·  1688overseas?在美区的TikTo ... ·  2 天前  
MiyueMedia  ·  1688overseas?在美区的TikTo ... ·  2 天前  
广东生态环境  ·  【行走美丽广东·生态篇】徜徉城央“绿心” ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

Ghost in the Minecraft:基于文本的知识和内存的LLM为开放世界环境提供通用智体

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-02-10 12:36

正文

23年6月清华大学、商汤、中科院、中科大、香港中文大学和上海AI实验室的论文“Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via LLMs with Text-based Knowledge and Memory”。

Ghost in the Minecraft(GITM),该框架将LLMs与基于文本的知识和内存集成在一起,为了在Minecraft中创建通用智体(GCA)。这些智体具备LLM的逻辑和常识能力,可以通过基于文本的交互熟练地在复杂、稀疏的奖励环境中导航。一组结构化的动作,并利用LLM生成行动规划供智体执行。GITM不需要任何GPU进行训练,只要一个32个CPU核心的CPU节点。项目网站 https://github.com/OpenGVLab/GITM

如图所示:RL智体试图将复杂的目标直接映射到一系列低级别控制信号,而GITM利用LLM来分解目标,并将其映射到最终控制信号的结构化动作。LLMs智体利用分层的目标分解,引入LLM分解器、LLM规划器和LLM接口,将任务目标逐步分解为子目标、结构化动作和键盘/鼠标操作。

如图所示: 给定一个Minecraft目标,LLM分解器将目标划分为一个子目标树; LLM规划器然后为每个子目标规划一个动作序列; 最后,LLM接口执行环境中的每个动作。 基于LLM的智体可以利用基于文本的知识和内存进一步增强。







请到「今天看啥」查看全文