去年今天,Google在AI视频生成方面的Demo,对比现在(网页链接)……明年AI发展会更快
Google AI也在生成视频领域发力,最近推出了VideoPoet,这是一种用于零镜头视频生成的大型语言模型,可产生一系列大且平滑的运动,同时在数秒内保留对象的外观。
内容:blog.research.google/2023/12/videopoet-large-language-model-for-zero.html?m=1
VideoPoet:用于零镜头视频生成的大型语言模型
——
当前视频生成的瓶颈之一是产生连贯大动作(large motions)的能力。在许多情况下,当前领先的模型要么只会产生较小的运作,要么当产生较大的动作时,会表现出明显的伪影。
为了探索语言模型在视频生成中的应用,我们引入了VideoPoet,这是一种大型语言模型(LLM),能够执行各种视频生成任务,包括文本到视频、图像到视频、视频风格化、视频修复和修复,以及视频转音频。
一个值得注意的观察是,领先的视频生成模型几乎完全是基于扩散的(例如,Imagen Video)。另一方面,LLM因其跨各种模式(包括语言、代码和音频(例如AudioPaLM ))的卓越学习能力而被广泛认为是事实上的标准。与该领域的替代模型相比,我们的方法将许多视频生成功能无缝集成在单个LLM中,而不是依赖于专门针对每个任务的单独训练的组件。
ChatGPT 黄建同学的微博视频
内容:blog.research.google/2023/12/videopoet-large-language-model-for-zero.html?m=1
VideoPoet:用于零镜头视频生成的大型语言模型
——
当前视频生成的瓶颈之一是产生连贯大动作(large motions)的能力。在许多情况下,当前领先的模型要么只会产生较小的运作,要么当产生较大的动作时,会表现出明显的伪影。
为了探索语言模型在视频生成中的应用,我们引入了VideoPoet,这是一种大型语言模型(LLM),能够执行各种视频生成任务,包括文本到视频、图像到视频、视频风格化、视频修复和修复,以及视频转音频。
一个值得注意的观察是,领先的视频生成模型几乎完全是基于扩散的(例如,Imagen Video)。另一方面,LLM因其跨各种模式(包括语言、代码和音频(例如AudioPaLM ))的卓越学习能力而被广泛认为是事实上的标准。与该领域的替代模型相比,我们的方法将许多视频生成功能无缝集成在单个LLM中,而不是依赖于专门针对每个任务的单独训练的组件。
ChatGPT 黄建同学的微博视频