专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
陈忻儿童心理  ·  《从心理解孩子》课程简单介绍(2025春季班 ... ·  昨天  
人力资源研究  ·  人生建议:下班后,就别再吃上班的苦了...... ·  2 天前  
人力资源研究  ·  人生建议:下班后,就别再吃上班的苦了...... ·  2 天前  
武志红  ·  这一部纪录片,杀我专用小猫刀 ·  3 天前  
51好读  ›  专栏  ›  极市平台

极市直播回放第134期丨更强VideoChat来袭!InternVideo2:扩展多模态视频理解的基础模型

极市平台  · 公众号  ·  · 2024-08-17 22:00

正文

↑ 点击 蓝字 关注极市平台
本次分享我们邀请到了 上海人工智能实验室通用视觉中心(OpenGVLab)青年研究员王毅 ,为大家详细 介绍他们在视频理解上的探索工作:
视频理解是计算机视觉领域的关键研究方向,拥有广泛的应用场景,例如视频搜索、游戏控制、机器人学习、自动驾驶和科学研究等。 近年来,大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 的发展对视觉研究和其他学科产生了深远的影响。 将视频有效地嵌入这些大型模型中,并利用其能力来增强视频理解性能,已成为一项关键任务。
我们介绍了 InternVideo2,一个新的视频基础模型 (ViFM) 家族,它在视频识别、视频文本任务和以视频为中心的对话中取得了最先进的结果。 我们的核心设计是一种渐进式训练方法,它将掩码视频建模、跨模态对比学习和下一个令牌预测统一起来,将视频编码器的规模扩展到 60 亿个参数。 在数据层面,我们通过语义分割视频和生成视频音频语音字幕来优先考虑时空一致性。 这提高了视频和文本之间的对齐。 通过大量的实验,我们验证了我们的设计,并在 60 多个视频和音频任务上展示了优越的性能。 值得注意的是,我们的模型在各种与视频相关的对话和长视频理解基准测试中优于其他模型,突出了其推理和理解更长上下文的能力。

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

论文地址: https://arxiv.org/abs/2403.15377

代码地址: https://github.com/OpenGVLab/InternVideo

后台回复“ 极市直播 ”或点击 阅读原文 即可获取PPT
➤详情传送门

极市直播预告|更强VideoChat来袭!InternVideo2:扩展多模态视频理解的基础模型


回放视频在这里☟

https://www.bilibili.com/video/BV1sx4y1s7Qj/


PPT内容截图 (点击 阅读原文 即可获取PPT)

往期视频在线观看
B站: http://space.bilibili.com/85300886#!/
腾讯视频: http://v.qq.com/vplus/8be9a676d97c74ede37163dd964d600c

极市平台专注分享计算机视觉前沿资讯和技术干货,特邀请行业内专业牛人嘉宾为大家分享视觉领域内的干货及经验,目前已成功举办 130 期线上分享 。近期在线分享可 点击以下合集 查看:

- 极市直播合集

更多往期分享请浏览: 极市计算机视觉技术分享集锦
http://bbs.cvmart.net/topics/149/cvshare ),也可以点击 阅读原文 获取。






请到「今天看啥」查看全文