专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
ZaomeDesign  ·  每日灵感丨二月十三日 ·  18 小时前  
创伙伴  ·  欢迎你也加入创伙伴知识星球 ·  昨天  
庞门正道  ·  我为什么拜神? ·  4 天前  
产业互联网大视野  ·  产业互联网大视野2025年线下活动安排表 ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

ALANAVLM:一种用于自我中心视频理解的多模态具身智能基础模型

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-10-28 07:36

正文

24年6月来自 Alana AI 的论文“ALANAVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding”。

通过机器人或可穿戴设备部署的 AI 个人助理,需要具身理解才能与人类有效协作。然而,当前的 视觉-语言模型 (VLM) 主要关注第三人称视角视频,而忽略以自我为中心感知体验的丰富性。故此,本文首先引入 以自我为中心的视频理解数据集 (EVUD) ,用于训练 VLM 完成特定于以自我为中心视频的视频字幕和问答任务。其次,本文提出 ALANAVLM ,一个使用参数高效方法在 EVUD 上训练的 7B 参数 VLM 。最后,本文在 OpenEQA,具身视频问答领域具有挑战性的基准,评估 ALANAVLM 的能力,该模型比开源模型(包括使用 GPT-4 作为规划器的 Socratic 模型)高出 3.6%。


在嵌入式AI个人助理,例如智能眼镜(或供盲人和视力不佳者使用的可穿戴相机)的场景中,希望构建能够理解用户活动视频及其视觉空间环境的人工智能系统,以便用户能够对视觉查询做出响应。对于这项任务,模型在生成答案之前必须能够接收一系列帧作为输入。最近,通过利用预训练的大语言模型 (LLM),已经提出视觉-语言模型 (VLM),它用适配器将视觉专家生成的表示,与可由纯文本语言模型操纵的文本tokens融合在一起(Liu,2024)。按照这种方法,VLM 已经扩展到处理视频理解任务(Maaz,2023)。

本文开发以自我为中心的视频理解数据集 (EVUD),用于训练 VLM ,这样完成以自我为中心的视频问答任务。该数据集包含 29,477 个示例,其概览如图所示:

EVUD 如图所示: 一组以自我为中心的视频字幕生成和视频问答任务,可用于指令调优基于视频的 VLM。

在 EVUD 上微调 Chat-UniVi(Jin,2023)来构建 ALANAVLM,Chat-UniVi 是一个配备视频理解功能的视觉-语言基础模型。 这个微调步骤对于注入 ALANAVLM 的自我中心视频理解技能至关重要。 从 Chat-UniVi 开始构建模型有几个原因。 首先,它是一个开源模型,其代码和权重都是公开的。 其次,它是为处理语言、图像和视频而设计的,可以考虑任意数量的帧。 第三,它在经典视频理解任务中的表现优于其他开源视觉和语言基础模型。

Chat-UniVi(“ Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding ”)旨在在统一框架内同时对图像和视频进行建模,以便大语言模型 (LLM) 能够理解这些语言序列。Chat-UniVi 通过一组动态视觉tokens统一表示图像和视频,将图像的复杂空间细节与视频所需的更广泛的时间理解联系起来,从而实现这一目标。如图所示:图像可以通过不同大小的视觉tokens来描述;例如,主要目标(即绵羊)需要具有大量视觉tokens的细粒度表示,而背景(即雪山)仅用一个视觉token即可充分建模;对于视频,视频最初被分成几个事件,随后这些视觉tokens扩展到每个事件内帧,封装帧级动态;这种对图像和视频的统一表示显著减少了视觉tokens的数量,同时保持了模型的表达能力。值得注意的是,较长的视频被分配了更多的视觉tokens。






微调的一些细节如下。







请到「今天看啥」查看全文


推荐文章
ZaomeDesign  ·  每日灵感丨二月十三日
18 小时前
创伙伴  ·  欢迎你也加入创伙伴知识星球
昨天
庞门正道  ·  我为什么拜神?
4 天前
产业互联网大视野  ·  产业互联网大视野2025年线下活动安排表
2 天前
爱卡爱羊毛  ·  周六抢券提醒
7 年前
台海军事热点  ·  中美刚谈完,特朗普变卦,立刻就翻脸了
7 年前
OFweek半导体照明  ·  小公司起诉微软Lumia 950侵犯LED技术专利
7 年前