本次分享我们邀请到了
上海人工智能实验室通用视觉中心(OpenGVLab)青年研究员王毅
,为大家详细
介绍他们在视频理解上的探索工作:
视频理解是计算机视觉领域的关键研究方向,拥有广泛的应用场景,例如视频搜索、游戏控制、机器人学习、自动驾驶和科学研究等。
近年来,大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 的发展对视觉研究和其他学科产生了深远的影响。
将视频有效地嵌入这些大型模型中,并利用其能力来增强视频理解性能,已成为一项关键任务。
我们介绍了 InternVideo2,一个新的视频基础模型 (ViFM) 家族,它在视频识别、视频文本任务和以视频为中心的对话中取得了最先进的结果。
我们的核心设计是一种渐进式训练方法,它将掩码视频建模、跨模态对比学习和下一个令牌预测统一起来,将视频编码器的规模扩展到 60 亿个参数。
在数据层面,我们通过语义分割视频和生成视频音频语音字幕来优先考虑时空一致性。
这提高了视频和文本之间的对齐。
通过大量的实验,我们验证了我们的设计,并在 60 多个视频和音频任务上展示了优越的性能。
值得注意的是,我们的模型在各种与视频相关的对话和长视频理解基准测试中优于其他模型,突出了其推理和理解更长上下文的能力。
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding
论文地址:
https://arxiv.org/abs/2403.15377
代码地址:
https://github.com/OpenGVLab/InternVideo
后台回复“
极市直播
”或点击
阅读原文
即可获取PPT
极市直播预告|更强VideoChat来袭!InternVideo2:扩展多模态视频理解的基础模型
➤
回放视频在这里☟
https://www.bilibili.com/video/BV1sx4y1s7Qj/
➤
PPT内容截图
(点击
阅读原文
即可获取PPT)
B站:
http://space.bilibili.com/85300886#!/
腾讯视频:
http://v.qq.com/vplus/8be9a676d97c74ede37163dd964d600c
极市平台专注分享计算机视觉前沿资讯和技术干货,特邀请行业内专业牛人嘉宾为大家分享视觉领域内的干货及经验,目前已成功举办
130
期线上分享
。近期在线分享可
点击以下合集
查看:
- 极市直播合集
(
http://bbs.cvmart.net/topics/149/cvshare
),也可以点击
阅读原文
获取。