23年11月来自清华大学、多伦多大学和零一万物公司的论文“EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models”。
视觉语言模型 (VLM) 最近在传统的下游任务中显示出了良好的效果。评估研究已经出现,开源评估其VLM能力,其中大多数侧重于第三人称视角,只有少数研究从第一人称视角解决特定任务。然而,VLM 从第一人称视角“思考”的能力(这是推进自主智体和机器人技术的关键属性)在很大程度上仍未得到探索。为了弥补这一研究空白,提出
EgoThink
,这是一种视觉问答基准,包含六项核心功能和十二个详细维度。该基准是使用从以自我为中心的视频中选定的片段构建的,其中手动注释的问-答对包含第一人称信息。为了全面评估 VLM,在 EgoThink 上评估了 21 个流行的 VLM。此外,鉴于答案的开放式格式,用 GPT-4 作为自动评判者来计算单个答案的评分。实验结果表明,尽管 GPT-4V 在许多维度上处于领先地位,但所有评估的 VLM 在第一人称视角任务中仍具有相当大的改进潜力。同时,扩大可训练参数的数量对 EgoThink 上的模型性能影响最为显著。总之,EgoThink 是对现有 VLM 评估基准的宝贵补充,为未来具身智能和机器人领域的研究提供了不可或缺的资源。
从第一人称视角观察和理解世界,是人类和人工智能智体的自然方法。从第一人称视角“思考”的能力,尤其是在解释自我中心图像时,对 VLM 至关重要。
然而,如表所示,目前的 VLM 评估基准并未充分解决从第一人称视角思考的能力。一方面,大多数基准(该表列出的九个基准中的六个)仅关注第三人称视角。另一方面,那些考虑第一人称视角的基准仅涵盖有限的能力范围。例如,EgoTaskQA [34] 研究空间、时间和因果方面,而 EgoVQA [16] 仅限于目标、动作和人方面。因此,显然需要制定一个全面的基准来更有效地评估 VLM 的第一人称能力。
人类在与现实世界互动时,会以自身为中心考虑一系列问题,从“我周围是什么?
”“我在做什么?
”“我在哪里?
”“我周围的情况怎么样?
”“我会发生什么?
”到“我将会怎么做?
”。
评估 VLM 的六个核心能力,即目标、活动、定位、推理、预测和规划。
每个能力对应上述问题之一,如图所示。
如图所示:
EgoThink 基准从第一人称视角专门设计 6 个类别 12 个细粒度进行定量评估
•目标:我周围有什么?识别现实世界中的目标是人类视觉系统的初步能力[50,85,91]。从第一人称或自我中心视角拍摄的图像[53,65,88]会更加关注主体周围或手中的目标。此外,进一步将目标类别划分为三个细粒度:(1)存在,预测是否存在图像中描述的目标;(2)属性[17,37],检测目标的属性或特征(例如颜色);(3)affordance [28,56],预测人类可以对目标采取的潜动作。
•活动:
我在做什么?
活动识别是自动识别视频帧或静态图像中的特定人类活动 [36, 38, 74]。
从自我中心的角度来看,主要关注基于目标与手交互的动作或活动 [6, 18, 59]。
• 定位:
我在哪里?
实际上,定位是现实世界中导航和场景理解的关键能力 [55, 66]。
在这里,从位置和空间关系两个方面研究定位能力。
位置表示检测主体周围的场景 [14, 26]。
空间推理包含他人为中心和自我中心视角 [24, 39, 57, 58]。
关注自我中心视角,即目标相对于主体的位置。
• 推理:
我周围的情况如何?
在复杂的决策过程中,推理无处不在。
在这里主要关注计数、比较和情境推理。
由于第一人称视角,通常会计算或比较手中或周围的目标。
至于情境推理,采用的案例无法直接从图像中的信息中得到答案,需要进一步的推理过程。
• 预测:
会发生什么?
预测[20, 25, 51, 52]是现实世界中的一项关键技能。
从自我中心的角度来看,预测总是预测目标状态转换或手与目标交互的未来。
• 规划:
我会怎么做?
实际上,规划[1, 30, 69]是处理复杂问题的重要能力,通常应用于导航[62, 63, 72]和辅助[27, 76]。
导航是从起始位置前往目标位置,而辅助是提供解决日常问题的说明。
收集第一人称视觉数据
。首先,用一个流行且庞大的自我中心视频数据集 Ego4D [25],该数据集旨在推动计算机视觉中第一人称感知领域的发展。为了在不同场景中获得多样化的表现,Ego4D 包含了来自 9 个国家/地区 74 个全球位置的 931 名独特相机佩戴者的 3,670 小时视频。为了收集第一人称视觉数据,首先从 Ego4D 视频数据集的一个子集中提取每一帧,从而得到一个多样化的原始图像数据集。请注意,目前的重点仅仅是图像,因为当今大多数 VLM 都不支持视频输入。考虑到繁重的人力劳动和场景的多样性,每隔几十帧就对图像进行采样。为了确保高质量,对提取帧的选择采用严格的标准。首先排除那些不够清晰或未能表现出自我中心特征的图像。然后,为了获得数据集内的高度多样性,进行进一步筛选,以确保每个视频最多包含两张图像。最后,获得大量具有自我中心特征的高质量图像作为第一人称图像候选。