点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:视觉语言导航
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
-
作者:Abrar Anwar
, John Welsh
, Joydeep Biswas
, Soha Pouya
, Yan Chang
-
单位:
NVIDIA,
南加州大学,
德克萨斯大学奥斯汀分校
-
论文标题:ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
-
论文链接:https://arxiv.org/abs/2409.13682
-
项目主页:https://nvidia-ai-iot.github.io/remembr/
-
代码链接:https://github.com/NVIDIA-AI-IOT/remembr
主要贡献
-
论文介绍了
ReMEmbR
,用于构建和推理机器人导航中的长时序时空记忆,通过结合检索增强记忆和大模型(LLM)智能体,能够有效地处理机器人长时间积累的历史数据,并回答关于这些数据的自由形式问题。
-
为了评估ReMEmbR系统的性能,构建了
NaVQA数据集
,包含从长时序机器人导航视频中标注的空间、时间和描述性问题,用于测试模型在长时序记忆构建和推理方面的能力。
-
ReMEmbR采用结构化的方法,包括
记忆构建
和查询
两个阶段。记忆构建阶段使用视频描述生成模型来嵌入图像帧,并将这些嵌入存储在向量数据库中。查询阶段则使用LLM智能体通过检索函数来采样数据库,以回答用户的问题。
-
通过实验展示了ReMEmbR在长时序任务上的
优越性能
,特别是在低延迟的情况下。此外,论文还展示了ReMEmbR在实际机器人上的部署情况,证明了其在现实世界中的应用潜力。
研究背景
研究问题
机器人需要能够回答关于其部署期间发生的事件的问题,例如事件发生的位置、时间以及持续时间等。
本文主要解决的问题是机器人在长时间部署过程中如何有效地构建和推理长时记忆,以便进行机器人导航。
研究难点
该问题的研究难点包括:
相关工作
-
-
EQA 是视频问答的一个扩展,适用于自身体验的环境,要求智能体进行导航和信息收集以回答问题。
-
相关工作包括 OpenEQA,它能回答机器人所看到的内容,但其记忆长度仅为30秒,无法应对更长的时间跨度。
-
-
传统的导航通常使用度量地图,不关注语义目标的导航。最近的视觉语言导航工作集中在探索未知空间,而机器人在同一区域长时间部署的情况较少被考虑。
-
记忆形式如场景图、拓扑记忆或可查询的地图表示可以用于生成语义目标,但在回答关于动态对象的时间历史问题上可能不足。
-
-
近年来,大模型(LLMs)和视觉-语言模型(VLMs)取得了显著进展,扩展了它们在各种任务中的能力。
-
检索增强生成和LLM智能体允许LLM利用外部信息提供更多上下文。在机器人中,过去的工作使用LLMs进行任务规划、生成代码或生成导航目标。
-
而本文则专注于开放视界的感知,并构建一个LLM智能体以实现长时序机器人历史的可扩展多步推理。
问题表述
任务定义
-
机器人被部署一段时间(K分钟),并在此期间从各种传感器中积累历史记录
。由于机器人的持续部署,历史记录的大小随时间单调递增。
-
论文目标是高效地构建长历史记录
的表示,并查询该表示以回答问题
和生成导航目标
,即计算条件概率
。
记忆表示
-
为了高效地构建记忆,本文考虑了图像
、位置
和时间戳
的历史记录。
-
假设机器人具有定位能力(如基于LIDAR的定位、GPS或里程计信息),以提供度量坐标。
问题类型
-
空间问题
:例如,“最近的洗手间在哪里?”机器人需要推理出所有看到的洗手间和洗手间标志,并提供具体的(x, y)位置。
-
时间问题
:分为点时间和持续时间问题。点时间问题(如“你什么时候看到箱子掉落的?”)回答特定时间点,持续时间问题(如“你在建筑内待了多久?”)关注活动的长度。
-
描述性问题
:询问环境、机器人可能看到的活动或机器人的状态。
ReMEmbR系统
问题分解
-
由于长时间历史的计算复杂性,本文将问题分解为两个阶段:记忆构建和查询。
-
目标是找到一个最优的历史子集
来回答问题,但实际上只能通过采样一个子集
来近似。
记忆表示
-
记忆表示
被设计为一个向量数据库,用于存储时间、位置和视觉表示。
-
向量数据库用于存储数百万个向量嵌入,并使用量化近似最近邻方法进行高效搜索。
记忆构建
-
在记忆构建阶段,机器人实时聚合信息。每
秒的视频帧被用来计算一个嵌入表示。使用视频描述生成模型(如VILA)生成每个时间段的描述性文本,然后使用文本嵌入函数将其嵌入。
-
随着时间的推移,机器人将文本嵌入、位置和时间戳添加到向量数据库
中。
查询过程
-
查询阶段使用LLM智能体作为采样函数
来从向量数据库
中采样历史子集
。
-
LLM智能体作为一个状态机,迭代调用LLM以生成函数调用和查询,从而检索相关的记忆片段。
-
LLM可以调用三种函数:文本检索、位置检索和时间检索,以获取更多的上下文信息。
答案生成
-
一旦检索到足够的记忆片段,LLM评估是否可以回答问题。
-
如果问题仍然无法回答,LLM会再次执行查询阶段以获取新的记忆。
-
如果问题可以回答,LLM会总结相关信息并生成答案。
NaVQA数据集
-
NaVQA数据集是基于CODa机器人导航数据集构建的。CODa数据集是一个大型的城市导航数据集,包含在大学校园内的室内和室外环境中长时间序列的数据。
-
NaVQA数据集通过标注空间、时间和描述性问题来评估模型处理机器人中心长时序推理的能力。
数据选择
-
本文从CODa数据集中选择了7个序列,每个序列的长度从15到30分钟不等。
-
这些序列被进一步划分为短(少于2分钟)、中(2到7分钟)和长(超过7分钟)三类,以便研究不同轨迹长度对问题回答能力的影响。
数据标注
-
每个序列被细分为10个不同长度类别的片段,总共生成210个问题。
-
为了确保问题的多样性和复杂性,招募了5位机器人专家来设计空间、时间和描述性问题。
数据统计
-
NaVQA数据集包含五种类型的问题输出:二进制是/否问题(32%)、时间点问题(14%)、持续时间问题(4%)、空间位置问题(34%)和描述性文本问题(16%)。
-
问题集中在空间理解、物体检测、标志阅读、动态事件理解和上下文推理等方面。
实验设置
数据集使用
-
实验使用NaVQA数据集来评估ReMEmbR和其他LLM方法的性能。
-
NaVQA数据集包含了空间、时间和描述性问题,用于测试模型在长时序记忆构建和推理方面的能力。
方法比较
-
ReMEmbR使用检索模块来聚合长时序历史的相关部分。实验中使用了不同的LLM模型,包括闭源的GPT-4o、开源的Codestral和Command-R,以及一个较小的80亿参数的Llama3.1模型。
-
本文还比较了ReMEmbR与两种基线方法:一种是直接使用GPT-4o处理所有描述,另一种是使用多帧视频模型(Multi-Frame VLM)处理所有帧。
评估指标
-
数据集的答案类型包括空间坐标、时间点和描述性文本,因此使用了不同的评估指标。
-
对于空间问题,计算L2距离,并定义在一定范围内为正确。
-
对于时间问题和持续时间问题,定义在一定误差范围内为正确。
-
实验细节
-
所有ReMEmbR实验在三个种子上运行,而由于成本较高,基线结果在一个种子上运行。
-
由于种子的不可重复性,本文对所有种子的结果进行了微平均。
结果与分析
性能对比
-
ReMEmbR在长时序任务上表现出色,尤其是在低延迟的情况下。
-
与传统的LLM方法和VLM基线相比,ReMEmbR在长视频上表现出更高的描述性问题准确性、位置误差和时序误差。
-
对于短视频,ReMEmbR的性能与VLM相当,但VLM无法处理长视频和中长视频。
整体正确性
-
ReMEmbR随着视频长度的增加,整体正确性得分更高。这表明ReMEmbR在处理更长时间范围的任务时表现更好。