专栏名称: 上海经信委
发布产业发展和信息化建设相关信息,提供办事指南、政策服务信息、产业技术前沿。回复粉丝的提问,提供全市加油站、文化创意地图、i-Shanghai地图等服务功能。
目录
相关文章推荐
知乎日报  ·  知乎图书新品上新——给 6-12 ... ·  4 小时前  
知乎日报  ·  想紧跟 AI 时代浪潮,看这一篇文章就够了 ·  昨天  
Quora文选英语  ·  老外说𝒎𝒖𝒎'𝒔 𝒕𝒉𝒆 ... ·  昨天  
知乎日报  ·  有什么东西是外国人吃,而中国人不吃的? ·  2 天前  
51好读  ›  专栏  ›  上海经信委

【产业动态】700万条视频,准确文本对应,大规模视频-文本开源数据集InternVid发布

上海经信委  · 公众号  ·  · 2024-06-11 21:24

正文

近日,上海人工智能实验室(上海AI实验室)联合南京大学、中国科学院等机构联合发布高质量大规模视频-文本数据集InternVid,旨在应对日益扩大的视频-语言建模规模需求,推动大模型视频理解和生成能力进一步提升。


作为当前全球最大的视频-文本公开数据集之一,InternVid包含
超700万条配有详细文本描述的视频,涵盖16种场景和约6000个动作描述,总时长接近76万小时, 并具备高视频-文本对应性,数据集中的 视频与文本描述高度匹配 ,为视频-文本语义匹配、视频-文本检索、视频-文本生成等多模态学习任务训练提供“视频词典”。

InternVid受到学术界广泛关注,已应用于多模态世界模型LWM,并被Google、Stable AI的视频生成工作使用或参考,相关论文在2024年国际表征学习大会(ICLR 2024)获Spotlight。

论文链接:

https://arxiv.org/abs/2307.06942

数据集链接:

https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid


大规模高质量数据集,更接近现实多元世界

InternVid包含超过 700 万个互联网公开视频,总时长近76万小时,共计230M个视频片段,涵盖16种场景和约6000个动作描述。视频内容覆盖日常生活、体育运动、娱乐、教育等多个领域,可应对多方面研究需求。
为了确保数据集多样性,以更接近多元的现实世界,上海AI实验室联合团队选择了来自不同国家、多语种的视频,而非依赖于某个主导语言环境。同时,基于动作和活动查询词收集视频,在InternVid中保留了重要的时序信息,有助于通过呈现不同文化背景下的现实场景,提升模型对真实世界的理解能力。
InternVid中85%的视频具有720P高分辨率,联合团队还为InternVid设置了视频文本匹配度(CLIP-SIM)和视频美学分数描述,为用户提供可借鉴参考,以便更高效地使用InternVid进行多模态训练。

InternVid视频语言、时长、类别一览。


视频均附准确文字描述,多模态学习“有据可依”

学习可迁移的视频-文本表示,对于大模型视频理解和生成能力尤为重要,因而在下游的自动驾驶、智能监控、人机交互、视觉搜索等大模型实际应用中扮演关键角色。随着多模态大模型参数的不断扩大,高质量视频-语言数据集的构建也面临新的需求。
为了使视频及其描述文本具有更准确的对应性,联合团队在搜集互联网公开视频描述时,采用了创新的多尺度视频描述生成方法,InternVid中的所有视频均附带高度相关的文本描述。使视频-文本语义匹配、视频-文本生成等多模态学习“有据可依”。

为了生成可扩展、丰富和多样化的视频描述,联合团队采用了多尺度方法,包含两种不同的描述策略。在较细的尺度上,专注于视频片段中常见的对象、动作和场景描述来简化视频描述过程;在较粗的尺度上,仅对视频的中心帧进行描述。这些描述被合成一个准确的综合视频描述。

在InternVid中,视频均配有准确文本描述,涉及不同语种方言、场景动作、文化背景。

研究人员利用InternVid中的子集InternVid-Aes进行了Diffusion视频生成模型训练实验。实验结果显示,基于InternVid,文生视频模型的视觉生成效果和定量评测结果均得到显著提升,基座模型能力获得有效增强。







请到「今天看啥」查看全文