专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

极市直播回放第134期丨更强VideoChat来袭！InternVideo2：扩展多模态视频理解的基础模型

极市平台 · 公众号 · · 2024-08-17 22:00

正文

↑ 点击蓝字关注极市平台

本次分享我们邀请到了 上海人工智能实验室通用视觉中心（OpenGVLab）青年研究员王毅 ，为大家详细介绍他们在视频理解上的探索工作：

视频理解是计算机视觉领域的关键研究方向，拥有广泛的应用场景，例如视频搜索、游戏控制、机器人学习、自动驾驶和科学研究等。近年来，大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 的发展对视觉研究和其他学科产生了深远的影响。将视频有效地嵌入这些大型模型中，并利用其能力来增强视频理解性能，已成为一项关键任务。

我们介绍了 InternVideo2，一个新的视频基础模型 (ViFM) 家族，它在视频识别、视频文本任务和以视频为中心的对话中取得了最先进的结果。我们的核心设计是一种渐进式训练方法，它将掩码视频建模、跨模态对比学习和下一个令牌预测统一起来，将视频编码器的规模扩展到 60 亿个参数。在数据层面，我们通过语义分割视频和生成视频音频语音字幕来优先考虑时空一致性。这提高了视频和文本之间的对齐。通过大量的实验，我们验证了我们的设计，并在 60 多个视频和音频任务上展示了优越的性能。值得注意的是，我们的模型在各种与视频相关的对话和长视频理解基准测试中优于其他模型，突出了其推理和理解更长上下文的能力。

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

论文地址： https://arxiv.org/abs/2403.15377

代码地址： https://github.com/OpenGVLab/InternVideo