专栏名称: AI生成未来
AIGC最新技术及资讯
目录
相关文章推荐
半月谈  ·  半月谈公考AI正式上线! ·  昨天  
半月谈  ·  微信上线新功能!网友:“非常实用” ·  昨天  
政事儿  ·  乌方大规模突袭 ·  2 天前  
半月谈  ·  为了TA的演唱会,来一场说走就走的旅行 ·  3 天前  
51好读  ›  专栏  ›  AI生成未来

InternVideo2 视频理解大模型已开源,更强VideoChat来袭!

AI生成未来  · 公众号  ·  · 2024-08-09 00:30

正文

点击下方 卡片 ,关注“ AI生成未来

请加小助理 加入AIGC技术交流群

备注公司/学校+昵称+研究方向


在当下,视频无疑是连接我们日常沟通与分享的纽带。 据最新数据表明,互联网上超过70%的流量都来源于视频内容,然而,AI大模型做视频理解并非易事,LeCun就曾在访谈中谈及他在视频理解领域数十年的经验心得( 阅读详情 )。

书生系列大模型是最早在此领域取得突破的大模型之一。 2022年,InternVideo已经成在视频理解标杆Kinetics 700和Kinetics400上获得SOTA性能,且成为世界首个在K400上突破 90% Top1 accuracy的大模型; 2023年成为 我们超受欢迎的 VideoChat:以聊天为中心的通用视频理解新范式 的基础模型。 最近,上海人工智能实验室携手南京大学、中国科学院深圳先进技术研究院等单位,共同探索并开源了新一代的视频理解大模型——InternVideo2。这款模型在6B的视频编码器和超过4亿视觉样本的训练下,通过渐进式学习显著提升了视频语义理解和世界建模能力,能够进行长视频理解和过程性推理,在具身智能、自动驾驶等重要领域,具有良好的应用前景。

InternVideo2在 Kinetics 400获得 92.1% Top1 accuracy , 60余个 视频/音频相关的任务上 SOTA 在Perception Test、EgoSchema、MVbench等多模态视频大模型能力评测上,性能超越或比肩GPT4V、Gemini、Llama3V等, 具备 更强的动态场景语义感知与时序内容理解能力,支持动态语义的精确解析、时序内容关联与综合理解、复杂时序关系推理与预测,能够理解过程性知识(人类技能),实现动作或事件的时序分解。

点击观看视频展示👇


🚀开源链接-进入后点击InternVideo2:

https://github.com/OpenGVLab/InternVideo

📃论文链接:







请到「今天看啥」查看全文