专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  另外两件事[24926] ·  18 小时前  
小众软件  ·  另外两件事[24925] ·  昨天  
APPSO  ·  ChatGPT ... ·  3 天前  
小众软件  ·  另外两件事[24923] ·  3 天前  
小众软件  ·  再见XShell,试试这款原生跨平台且高颜值 ... ·  3 天前  
51好读  ›  专栏  ›  APPSO

字节版 Sora 来了!两款视频模型惊艳亮相,我扒出了它强大的秘密

APPSO  · 公众号  · app  · 2024-09-25 19:26

正文

没想到,字节版 Sora 就这么水灵灵地就来了。
昨日,字节跳动旗下火山引擎在深圳举办 AI 创新巡展,一举推出了豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型。
简单总结豆包视频模型的特点:

支持文生/图生视频,时长可达 10s

精准的语义理解,多动作多主体交互

一致性切镜

强大动态与酷炫运镜

高保真高美感,多风格多尺寸
话不多说,先来感受一下官方给出的演示 demo。
相比大部分视频生成模型,豆包视频生成模型可以遵从更复杂的 prompt,指哪儿打哪儿,生成更复杂的动作。

多人多动作视频生成,动态真实自然
全新设计的扩散模型训练方法,成功攻克了多镜头切换时难以保持一致性的困扰,能在 10 秒内讲述一个完整的故事。
多个镜头切换时,也能保持主体、风格、氛围和逻辑的一致性,真·导演自由。
主角掏钥匙开门、取东西、关门一气呵成,且画面细节也不掉链子。

潜水员画面前后变焦的真实细腻,告别了传统的 PPT 动画,带来真实世界的体验。

深度优化的 Transformer 结构也大幅提升了视频生成的泛化能力,支持包括黑白、3D 动画、国画等多种风格,包含 1:1、3:4 等比例。

静止的水墨画突然复活,振翅高飞的小鸟就这样飞出了画。

前有「瘦骨铜声」之美感的奔马图,现在使用豆包的视频模型就能生成多主体高保真的奔羊图。
作为国内互联网巨头,字节有着做好视频生成模型的天然优势,业务场景丰富,算法积累深厚。
在大模型发展路径上,字节采取的打法策略也有所不同,先是 toC 打磨产品,等到模型能力具备竞争优势后再 toB 拓展市场。
与豆包语言模型相类似,豆包视频生成模型的早期版本今年 2 月就已经在即梦(Dreamina)上应用,持续迭代优化后才正式推向企业市场。
火山引擎总裁谭待表示,「视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性,加速拓展 AI 视频的创作空间和应用落地。」
而在豆包视频模型爆火的一天内,网友也扒出了同名为「PixelDance」的论文。
PixelDance 结合了图像指令(第一帧和最后一帧)和文本指令来生成视频,能够克服现有文本到视频(T2V)生成模型在生成复杂动态视频方面的局限性。
PixelDance 为高动态视频生成引入了以下新颖的方法:
1.
结合图像指令和文本指令:PixelDance 不仅使用文本指令,还引入了图像指令,包括视频的第一帧和最后一帧的图像,以提供更精细的视觉细节和控制视频的开始和结束场景。
2.
扩散模型架构:PixelDance 基于潜在扩散模型(latent diffusion model),使用预训练的变分自编码器(VAE)和文本编码器。图像指令通过 VAE 编码器编码,并与视频潜在变量或高斯噪声一起作为输入进入扩散模型。
3.
训练和推断技术:PixelDance 开发了专门的训练和推断技术,包括使用真实视频帧作为指令,以及在推断过程中使用采样策略来确保视频的时间一致性。
4.
长视频生成能力:PixelDance 能够生成连续的视频片段,并在生成过程中使用前一片段的最后一帧作为下一片段的第一帧指令,以确保时间一致性和视频质量。
5.
零样本视频编辑能力:PixelDance 在没有专门训练的情况下进行视频编辑,通过将视频编辑任务转换为图像编辑任务,使用户能够通过编辑视频的第一帧和最后一帧来指导视频生成过程。
6.
泛化到非现实风格的图像指令:即使在训练数据中没有非现实风格(如科幻、漫画和卡通)的视频,PixelDance 也展现出生成高质量视频的能力。
这些方法的结合使得 PixelDance 能够在生成复杂场景和动作的高动态视频方面达到新的标准。
此外,PixelDance 主要使用了两个数据集进行训练:
WebVid-10M 是一个包含大约 1000 万个短视频的数据集,每个视频的平均长度为 18 秒,分辨率主要为 336 x 596。
每个视频都配有一个文本描述,但这些描述通常与视频内容只有松散的关联。
与此同时,为了解决 WebVid-10M 中所有视频都带有水印的问题,研究人员还收集了 500000 个无水印的视频片段。
这些片段描绘了现实世界中的实体,如人类、动物、物体和风景,并配有一定的文本描述。
通过将自行收集的无水印视频片段与 WebVid-10M 结合使用,PixelDance 也能够生成无水印的视频。
目前豆包视频模型已开启邀请测试,企业用户可在火山引擎申请测试,个人用户则可在字节旗下的即梦 AI 申请内测。
附上企业版申请地址:
https://console.volcengine.com/
附上即梦 AI 内测申请地址:
https://bytedance.larkoffice.com/share/base/form/shrcnTPmPPxn9j6bw2AH3kdP6Fd