点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:视觉语言导航
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
-
作者:Abrar Anwar
, John Welsh
, Joydeep Biswas
, Soha Pouya
, Yan Chang
-
单位:
NVIDIA,
南加州大学,
德克萨斯大学奥斯汀分校
-
论文标题:ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
-
论文链接:https://arxiv.org/abs/2409.13682
-
项目主页:https://nvidia-ai-iot.github.io/remembr/
-
代码链接:https://github.com/NVIDIA-AI-IOT/remembr
主要贡献
-
论文介绍了
ReMEmbR
,用于构建和推理机器人导航中的长时序时空记忆,通过结合检索增强记忆和大模型(LLM)智能体,能够有效地处理机器人长时间积累的历史数据,并回答关于这些数据的自由形式问题。
-
为了评估ReMEmbR系统的性能,构建了
NaVQA数据集
,包含从长时序机器人导航视频中标注的空间、时间和描述性问题,用于测试模型在长时序记忆构建和推理方面的能力。
-
ReMEmbR采用结构化的方法,包括
记忆构建
和查询
两个阶段。记忆构建阶段使用视频描述生成模型来嵌入图像帧,并将这些嵌入存储在向量数据库中。查询阶段则使用LLM智能体通过检索函数来采样数据库,以回答用户的问题。
-
通过实验展示了ReMEmbR在长时序任务上的
优越性能
,特别是在低延迟的情况下。此外,论文还展示了ReMEmbR在实际机器人上的部署情况,证明了其在现实世界中的应用潜力。
研究背景
研究问题
机器人需要能够回答关于其部署期间发生的事件的问题,例如事件发生的位置、时间以及持续时间等。
本文主要解决的问题是机器人在长时间部署过程中如何有效地构建和推理长时记忆,以便进行机器人导航。
研究难点
该问题的研究难点包括:
相关工作
-
-
EQA 是视频问答的一个扩展,适用于自身体验的环境,要求智能体进行导航和信息收集以回答问题。
-
相关工作包括 OpenEQA,它能回答机器人所看到的内容,但其记忆长度仅为30秒,无法应对更长的时间跨度。
-
-
传统的导航通常使用度量地图,不关注语义目标的导航。最近的视觉语言导航工作集中在探索未知空间,而机器人在同一区域长时间部署的情况较少被考虑。
-
记忆形式如场景图、拓扑记忆或可查询的地图表示可以用于生成语义目标,但在回答关于动态对象的时间历史问题上可能不足。
-
-
近年来,大模型(LLMs)和视觉-语言模型(VLMs)取得了显著进展,扩展了它们在各种任务中的能力。
-
检索增强生成和LLM智能体允许LLM利用外部信息提供更多上下文。在机器人中,过去的工作使用LLMs进行任务规划、生成代码或生成导航目标。
-
而本文则专注于开放视界的感知,并构建一个LLM智能体以实现长时序机器人历史的可扩展多步推理。
问题表述
任务定义
-
机器人被部署一段时间(K分钟),并在此期间从各种传感器中积累历史记录
。由于机器人的持续部署,历史记录的大小随时间单调递增。
-
论文目标是高效地构建长历史记录
的表示,并查询该表示以回答问题
和生成导航目标
,即计算条件概率
。
记忆表示
-
为了高效地构建记忆,本文考虑了图像
、位置
和时间戳
的历史记录。
-
假设机器人具有定位能力(如基于LIDAR的定位、GPS或里程计信息),以提供度量坐标。
问题类型
-
空间问题
:例如,“最近的洗手间在哪里?”机器人需要推理出所有看到的洗手间和洗手间标志,并提供具体的(x, y)位置。
-
时间问题
:分为点时间和持续时间问题。点时间问题(如“你什么时候看到箱子掉落的?”)回答特定时间点,持续时间问题(如“你在建筑内待了多久?”)关注活动的长度。
-
描述性问题
:询问环境、机器人可能看到的活动或机器人的状态。
ReMEmbR系统
问题分解
-
由于长时间历史的计算复杂性,本文将问题分解为两个阶段:记忆构建和查询。
-
目标是找到一个最优的历史子集
来回答问题,但实际上只能通过采样一个子集
来近似。
记忆表示
-
记忆表示
被设计为一个向量数据库,用于存储时间、位置和视觉表示。
-
向量数据库用于存储数百万个向量嵌入,并使用量化近似最近邻方法进行高效搜索。
记忆构建
-
在记忆构建阶段,机器人实时聚合信息。每
秒的视频帧被用来计算一个嵌入表示。使用视频描述生成模型(如VILA)生成每个时间段的描述性文本,然后使用文本嵌入函数将其嵌入。
-
随着时间的推移,机器人将文本嵌入、位置和时间戳添加到向量数据库
中。
查询过程
-
查询阶段使用LLM智能体作为采样函数
来从向量数据库
中采样历史子集