专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

带有记忆能力的具身导航智能体！ReMEmbR：机器人导航中长时域时空记忆的构建和推理

3D视觉工坊 · 公众号 · · 2025-02-07 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：视觉语言导航

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

作者：Abrar Anwar , John Welsh , Joydeep Biswas , Soha Pouya , Yan Chang
单位： NVIDIA，南加州大学，德克萨斯大学奥斯汀分校
论文标题：ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
论文链接：https://arxiv.org/abs/2409.13682
项目主页：https://nvidia-ai-iot.github.io/remembr/
代码链接：https://github.com/NVIDIA-AI-IOT/remembr

主要贡献

论文介绍了 ReMEmbR ，用于构建和推理机器人导航中的长时序时空记忆，通过结合检索增强记忆和大模型（LLM）智能体，能够有效地处理机器人长时间积累的历史数据，并回答关于这些数据的自由形式问题。
为了评估ReMEmbR系统的性能，构建了 NaVQA数据集 ，包含从长时序机器人导航视频中标注的空间、时间和描述性问题，用于测试模型在长时序记忆构建和推理方面的能力。
ReMEmbR采用结构化的方法，包括记忆构建和查询两个阶段。记忆构建阶段使用视频描述生成模型来嵌入图像帧，并将这些嵌入存储在向量数据库中。查询阶段则使用LLM智能体通过检索函数来采样数据库，以回答用户的问题。
通过实验展示了ReMEmbR在长时序任务上的优越性能，特别是在低延迟的情况下。此外，论文还展示了ReMEmbR在实际机器人上的部署情况，证明了其在现实世界中的应用潜力。

研究背景

研究问题

机器人需要能够回答关于其部署期间发生的事件的问题，例如事件发生的位置、时间以及持续时间等。

本文主要解决的问题是机器人在长时间部署过程中如何有效地构建和推理长时记忆，以便进行机器人导航。

研究难点

该问题的研究难点包括：

处理长时间视频数据的推理需求、
在有限的计算资源下进行高效的历史数据聚合、
以及在动态和复杂环境中进行多步推理。

问题表述

任务定义

机器人被部署一段时间（K分钟），并在此期间从各种传感器中积累历史记录。由于机器人的持续部署，历史记录的大小随时间单调递增。
论文目标是高效地构建长历史记录的表示，并查询该表示以回答问题和生成导航目标，即计算条件概率。

记忆表示

为了高效地构建记忆，本文考虑了图像、位置和时间戳的历史记录。
假设机器人具有定位能力（如基于LIDAR的定位、GPS或里程计信息），以提供度量坐标。

问题类型

空间问题 ：例如，“最近的洗手间在哪里？”机器人需要推理出所有看到的洗手间和洗手间标志，并提供具体的(x, y)位置。
时间问题 ：分为点时间和持续时间问题。点时间问题（如“你什么时候看到箱子掉落的？”）回答特定时间点，持续时间问题（如“你在建筑内待了多久？”）关注活动的长度。
描述性问题 ：询问环境、机器人可能看到的活动或机器人的状态。

ReMEmbR系统

问题分解

由于长时间历史的计算复杂性，本文将问题分解为两个阶段：记忆构建和查询。
目标是找到一个最优的历史子集来回答问题，但实际上只能通过采样一个子集来近似。

记忆表示

记忆表示被设计为一个向量数据库，用于存储时间、位置和视觉表示。
向量数据库用于存储数百万个向量嵌入，并使用量化近似最近邻方法进行高效搜索。

记忆构建

在记忆构建阶段，机器人实时聚合信息。每秒的视频帧被用来计算一个嵌入表示。使用视频描述生成模型（如VILA）生成每个时间段的描述性文本，然后使用文本嵌入函数将其嵌入。
随着时间的推移，机器人将文本嵌入、位置和时间戳添加到向量数据库中。

查询过程

查询阶段使用LLM智能体作为采样函数来从向量数据库中采样历史子集

带有记忆能力的具身导航智能体！ReMEmbR：机器人导航中长时域时空记忆的构建和推理

正文

主要贡献

研究背景

研究问题

研究难点

相关工作

问题表述

任务定义

记忆表示

问题类型

ReMEmbR系统

问题分解

记忆表示

记忆构建

查询过程

请到「今天看啥」查看全文

带有记忆能力的具身导航智能体！ReMEmbR：机器人导航中长时域时空记忆的构建和推理

正文

主要贡献

研究背景

研究问题

(adsbygoogle = window.adsbygoogle || []).push({}); 研究难点

相关工作

问题表述 (adsbygoogle = window.adsbygoogle || []).push({});

任务定义

记忆表示

问题类型 (adsbygoogle = window.adsbygoogle || []).push({});

ReMEmbR系统

问题分解

(adsbygoogle = window.adsbygoogle || []).push({}); 记忆表示

记忆构建

查询过程

请到「今天看啥」查看全文

研究难点

问题表述

问题类型

记忆表示