专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
债券今天有蛋吗  ·  股债三连涨,接下来怎么配? ·  昨天  
债券今天有蛋吗  ·  股债三连涨,接下来怎么配? ·  昨天  
梅森投研  ·  注意,缩圈! ·  2 天前  
新闻株洲  ·  株洲开年大片,满满的科技感! ·  2 天前  
湖南日报  ·  正月初八,开工大吉!公主王子请上班~ ·  3 天前  
51好读  ›  专栏  ›  新智元

AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024

新智元  · 公众号  ·  · 2024-07-30 13:35

主要观点总结

video-SALMONN模型通过三部分创新技术处理音视频内容,该模型在单一模态和视听联合任务上表现出卓越的性能。文章介绍了video-SALMONN模型在理解视频内容时的应用案例和技术特点,包括语音增强的视听大语言模型、核心技术、结果和结语等。

关键观点总结

关键观点1: video-SALMONN模型的技术创新

video-SALMONN模型通过三部分创新技术实现语音-音频-视频的综合理解,包括音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。这些技术使得模型能够处理自然图像、视觉帧序列、语音、音频事件和音乐元素等各种视频基本元素。

关键观点2: video-SALMONN模型的应用案例

文章通过几个实际应用案例展示了video-SALMONN模型如何理解视频内容,包括解读经典电影片段、识别树獭的搞笑之处、解释流行meme的趣味性、理解国家地理纪录片中的语音内容、理解大佬对话等。

关键观点3: video-SALMONN模型的核心技术

video-SALMONN模型的核心技术包括语音编码和音频编码器的使用、多分辨率因果Q-Former结构、多样性损失函数的使用以及混合未配对音视频数据的训练策略。这些技术使得模型能够在不同时间尺度上理解视频内容,同时关注语音和音频信息。

关键观点4: video-SALMONN模型的结果和表现

video-SALMONN模型在多个任务上展示了不俗的表现,包括语音识别、音频描述、图片描述、视觉文字识别、图片问答、视频问答等视觉和听觉单一输入模态的任务,以及视听语音识别、音视频问答、音视频声源检测和音视频匹配等音视频共同输入的感知任务。模型在多个任务上超过了其他模型的表现。


正文



新智元报道

编辑:LRST 好困
【新智元导读】 音视频大语言模型在处理视频内容时,往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新:音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准确性。


想要看懂短视频,除了视觉内容外,语音和音频等听觉信息,如视频音乐、音效、语音内容等,也对短视频的理解起到关键作用。


音视频大语言模型(av-LLMs)在近几年取得了显著进展,但语音作为视频中人类语言的主要载体,仍未在这些模型中得到充分探索。语音不仅提供了丰富的语言和语义信息,还有助于理解视频中的情感和潜在意义。


与此同时,语音信号还包含丰富的副语言信息,如音调和音高,以及多样的说话者属性(如年龄、性别、口音和身份),这些都是视频理解中不可或缺的要素。


然而,增强通用视听大语言模型的语音能力极具挑战性,这需要时间上精细的建模,并在粗略(如视频主题)和精细(如唇部动作)时间尺度上与其他模态进行复杂的交互。


近期,发表在ICML  2024的论文《video-SALMONN:  Speech-Enhanced Audio-Visual Large Language Models》成为了首个集齐视频中所有音视频元素(自然图像、文字、语音、音频事件、音乐)的大模型。


video-SALMONN论文链接:https://openreview.net/pdf?id=nYsh5GFIqX

SALMONN论文链接:https://arxiv.org/abs/2310.13289

Github Page:https://github.com/bytedance/SALMONN


通过下面几个例子,一起来看看video-SALMONN是如何通过语音-音频-视频的 信息来解读视频内容的吧!


首先来一段经典的《泰坦尼克号》片段



让video-SALMONN来谈谈为什么这段视频很浪漫吧:



问题:

请结合视频,音频和人物对白解释为什么视频很浪漫


回答:

这段视频展示了一对男女在船上的浪漫场景。男人把女人拥在怀里,两人一起看着日落。背景音乐是一首歌,增添了浪漫的气氛。女人说「我在飞」和「杰克」,这表明他们很幸福,享受这一刻。船和日落的背景创造了一个美丽宁静的环境,增强了视频的浪漫感觉。男女的肢体语言和面部表情也传达了他们对彼此的爱和深情。总的来说,这段视频完美地展现了两人之间浪漫而亲密的时刻。


不止描述看到的场景,video-SALMONN还把听到的音乐,和人物的对白,都融合进了他的描述里。


更惊喜的是,video-SALMONN还能知道是女人说的「我在飞」,进一步询问的话,

此外,video-SALMONN还能推理出男人的名字是「杰克」。

我们都知道,正是这两句对白成就了这个经典场景,而video-SALMONN恰恰抓住了这个场景的精髓所在!


再来一段《疯狂动物城》的动画片段:



看看video-SALMONN是怎么理解树獭的搞笑之处吧:



问题:

场景中有兔子,狐狸和树獭,树獭说了什么?为什么树獭很有趣?


回答:

树懒在视频结尾时说了「Nick」。树懒之所以搞笑,是因为它是一种动作缓慢的动物,在视频中表现得非常懒散,做事情花了很长时间。这与其他动物(如兔子和狐狸)的活跃和充满活力形成了鲜明对比,使树懒显得尤为突出,增加了幽默感。此外,视频中树懒的慢动作和表情也增加了它的喜剧效果。


这个例子展示了视听结合对说话人的识别,只有听觉我们不知道是树獭在说话,只有视觉我们不知道树獭说了什么,只有视听结合才能真正理解视频!


还有这个非常受欢迎的meme:



问问video-SALMONN这个视频为什么搞笑吧:



问题:

你可以解释为什么这个视频很有趣吗?


回答:

这段视频之所以有趣,是因为它展示了一个男人做了一个滑稽的表情,然后说「nice」。他严肃的表情与「nice」这个词之间的反差创造了幽默感和惊喜感。此外,男人打嗝的声音效果和响亮的爆破音也增加了视频的娱乐价值。


再来看一段国家地理的纪录片片段,让我们来看看理解语音还有什么帮助:



问问video-SALMONN视频里是哪种鲨鱼吧:



问题:

视频中的鲨鱼是哪种鲨鱼?


带audio输入的回答:

视频中的鲨鱼是一头鲸鲨


不带audio输入的回答:

视频中的鲨鱼是一头大白鲨


光看视频,没点专业知识真的不知道是哪种鲨鱼,模型就只能猜,容易出现幻觉。


但是听了语音讲解,video-SALMONN就能准确知道视频讲的是鲸鲨,再也不用瞎猜了。


还有这个大佬之间对话的视频片段:



不止理解对话内容,video-SALMONN还将说话人和对话内容联系到了一起:



提问:

基于视频和语音,是视频中飞去了Florence的是男人还是女人?


回答:

是女人飞去了Florence


这个例子进一步展示了video-SALMONN对视频里语音的全方位理解。


如果直接输入语音转录的文字,模型是不可能知道到底是谁飞去了Florence,而video-SALMONN可以将语音内容和说话人信息紧密结合在一起


接下来是干货部分:让我们一起来看看video-SALMONN具体是怎么实现语音-音频-视频的综合理解的吧!


核心技术


video-SALMONN模型


面对音视频大模型中语音理解挑战,video-SALMONN通过以下三部分创新,使其能够处理自然图像、视觉帧序列、语音、音频事件和音乐元素等各种视频基本元素:


第一部分:音视频编码和时间对齐


video- SALMONN使用Whisper语音编码器和BEATs音频编码器,分别得到语音和音频的编码向量序列(每1秒音频对应50个向量),同时使用InstructBLIP视觉编码器,以2 FPS的视频采样率得到视觉编码向量序列(每1秒视频2帧,对应64个向量)。


三个序列在时间维度上,以视频帧为基准每0.5秒对齐并拼接一次(temporal fine-grained synchronisation),因为语音音频序列略短于视觉序列,短的部分加上zero padding。


第二部分:多分辨率因果Q-Former


多分辨率因果(MRC)Q-Former结构是video-SALMONN的创新核心,它不仅在多个不同的时间尺度上将时间同步的视听输入特征与文本表示空间对齐,满足依赖于不同视频元素的任务需求,同时为了加强连续视频帧之间事件的时间因果关系,引入了带有特殊因果掩码的因果自注意结构。


MRC  Q-Former结构


首先,MRC Q-Former将输入序列分成不同长度的窗。然后,在每一个窗内,用Q-Former把拼接后的多模态表征映射到语义表征空间。最后,将每个分辨率层级内的各个窗Q-Former输出的向量串起来形成语义空间的向量序列。


MRC Q-Former通过保证输出向量个数和窗长比为定值,来保证不同分辨率层级的输出序列可以直接在特征维度拼接,拼接后的向量通过线性层映射后用作大语言模型的输入。


通过训练,高分辨率的Q-Former可以捕捉细粒度的信息,比如语音内容以及语音和唇部动作的联系,低分辨率的Q-Former可以有效提取视频层级的信息,对视频的整体内容以及多个帧之间的关系有更好的理解。







请到「今天看啥」查看全文