请加小助理
加入AIGC技术交流群
备注公司/学校+昵称+研究方向
在当下,视频无疑是连接我们日常沟通与分享的纽带。
据最新数据表明,互联网上超过70%的流量都来源于视频内容,然而,AI大模型做视频理解并非易事,LeCun就曾在访谈中谈及他在视频理解领域数十年的经验心得(
阅读详情
)。
书生系列大模型是最早在此领域取得突破的大模型之一。
2022年,InternVideo已经成在视频理解标杆Kinetics 700和Kinetics400上获得SOTA性能,且成为世界首个在K400上突破
90%
Top1 accuracy的大模型;
2023年成为
我们超受欢迎的
VideoChat:以聊天为中心的通用视频理解新范式
的基础模型。
最近,上海人工智能实验室携手南京大学、中国科学院深圳先进技术研究院等单位,共同探索并开源了新一代的视频理解大模型——InternVideo2。这款模型在6B的视频编码器和超过4亿视觉样本的训练下,通过渐进式学习显著提升了视频语义理解和世界建模能力,能够进行长视频理解和过程性推理,在具身智能、自动驾驶等重要领域,具有良好的应用前景。
InternVideo2在
Kinetics 400获得
92.1%
Top1 accuracy ,
在
60余个
视频/音频相关的任务上
SOTA
,
在Perception Test、EgoSchema、MVbench等多模态视频大模型能力评测上,性能超越或比肩GPT4V、Gemini、Llama3V等,
具备
更强的动态场景语义感知与时序内容理解能力,支持动态语义的精确解析、时序内容关联与综合理解、复杂时序关系推理与预测,能够理解过程性知识(人类技能),实现动作或事件的时序分解。
🚀开源链接-进入后点击InternVideo2:
https://github.com/OpenGVLab/InternVideo
📃论文链接: