专栏名称: AI生成未来
AIGC最新技术及资讯
目录
相关文章推荐
辽沈晚报  ·  知名男星否认,直言 “不能容忍”! ·  2 天前  
辽沈晚报  ·  知名男星否认,直言 “不能容忍”! ·  2 天前  
FM1007福建交通广播  ·  金秀贤方否认与金赛纶恋情后,韩国网友抵制金秀 ... ·  2 天前  
FM1007福建交通广播  ·  金秀贤方否认与金赛纶恋情后,韩国网友抵制金秀 ... ·  2 天前  
51好读  ›  专栏  ›  AI生成未来

开源实操 | 腾讯VTA-LDM:让你的视频自动生成完美音效

AI生成未来  · 公众号  ·  · 2024-08-06 01:01

正文

点击下方 卡片 ,关注“ AI生成未来

请加小助理 加入AIGC技术交流群

备注公司/学校+昵称+研究方向

简介

根据视频输入生成语义和时间对齐的音频内容已成为研究人员的焦点,特别是在文本到视频生成方面取得显著突破之后。

在这项工作中,VTA-LDM目标是提供对视频到音频生成范例的见解,重点关注三个关键方面: 视觉编码器、辅助嵌入和数据增强技术。

VTA-LDM 是由腾讯人工智能实验室开发的一项新技术,其主要作用是利用AI自动给视频生成符合视频内容的音效!

比如视频里是海浪拍打沙滩,它就能生成哗啦哗啦的海浪声;要是视频里是热闹的街市,它就能生成嘈杂的人声和车声。

先看下效果吧!! 其中,左侧是原始视频中的音效,右侧是VTA-LDM生成的音效!!


方法概述

VTA-LDM 框架概述

图 1: VTA-LDM 框架概述。 给定无声视频,该模型会生成语义相关且时间对齐的音频,准确对应于视觉事件。该框架基于以编码视觉特征作为生成条件的LDM

从之前的TTA工作和多模态研究中汲取灵感,研究者开发了一个基本的VTA框架。 VTA-LDM 由几个关键组件组成:视觉编码器、条件LDM和梅尔频谱图/音频变分自动编码器(VAE)。

具体来说,利用从预先训练的视觉编码器中提取的视觉特征,并通过线性投影层将它们输入LDM作为生成条件。LDM对梅尔频谱图的潜在音频表示进行操作。预训练的音频VAE有助于将去噪的潜在输出解码为梅尔频谱图,然后将其馈送到声码器以生成最终音频。

视觉编码器

视觉编码器不仅负责编码视频的语义 V,还有与生成的音频对齐所需的时间信息。采用预训练的视觉编码器 fV,例如 CLIP4CLIP,从输入视频中提取视觉特征。这些功能捕获基本的视觉信息,包括对象、动作和场景上下文。使用投影层 ϕ 将这些特征映射到扩散条件的所需维度。视觉编码器在训练过程中全部被冻结,而投影层将从头开始训练。

潜在扩散模型(LDM)

给定原始输入 x0 ,扩散模型遵循马尔可夫链扩散步骤,逐渐向数据添加随机噪声,直到其遵循高斯分布 N⁢(0,I) ,代表为 xt 。然后模型学习反向去噪过程以恢复原始输入数据。为了提高计算效率, LDM结合了训练有素的感知压缩模型来对输入进行编码 x 进入低维潜在空间 Z 。在基于文本的生成任务中,生成条件通常是给定的文本描述。在VTA实现中,条件 c 是投影视频特征 ϕ⁢(fV) 。为了执行顺序去噪,研究者训练一个网络 ϵθ 预测人工噪声,遵循以下目标:

在基于文本的生成中, ∅ 通常定义为 *ϕ⁢(” ”) 来表示空条件。在TTA任务中,使用零嵌入作为 ϕ⁢(N⁢U⁢L⁢L) ,代表零视觉条件。







请到「今天看啥」查看全文