InternVideo2 视频理解大模型已开源，更强VideoChat来袭！

AI生成未来 · 公众号 · · 2024-08-09 00:30

正文

点击下方 卡片 ，关注“ AI生成未来 ”

请加小助理 加入AIGC技术交流群

备注公司/学校+昵称+研究方向

在当下，视频无疑是连接我们日常沟通与分享的纽带。据最新数据表明，互联网上超过70%的流量都来源于视频内容，然而，AI大模型做视频理解并非易事，LeCun就曾在访谈中谈及他在视频理解领域数十年的经验心得（阅读详情）。

书生系列大模型是最早在此领域取得突破的大模型之一。 2022年，InternVideo已经成在视频理解标杆Kinetics 700和Kinetics400上获得SOTA性能，且成为世界首个在K400上突破 90% Top1 accuracy的大模型； 2023年成为我们超受欢迎的 VideoChat：以聊天为中心的通用视频理解新范式的基础模型。最近，上海人工智能实验室携手南京大学、中国科学院深圳先进技术研究院等单位，共同探索并开源了新一代的视频理解大模型——InternVideo2。这款模型在6B的视频编码器和超过4亿视觉样本的训练下，通过渐进式学习显著提升了视频语义理解和世界建模能力，能够进行长视频理解和过程性推理，在具身智能、自动驾驶等重要领域，具有良好的应用前景。

InternVideo2在 Kinetics 400获得 92.1% Top1 accuracy ，在 60余个 视频/音频相关的任务上 SOTA ，在Perception Test、EgoSchema、MVbench等多模态视频大模型能力评测上，性能超越或比肩GPT4V、Gemini、Llama3V等，具备更强的动态场景语义感知与时序内容理解能力，支持动态语义的精确解析、时序内容关联与综合理解、复杂时序关系推理与预测，能够理解过程性知识（人类技能），实现动作或事件的时序分解。