文章介绍了Genmo公司发布的视频生成模型Mochi 1,该模型展示了出色的演示视频,并完成了一轮A轮融资。Mochi 1具有生成高质量视频的能力,包括运动质量、提示遵从、初始分辨率等特性。此外,文章还介绍了Mochi 1的架构、开源计划、未来规划以及模型体验方式。
Mochi 1能以每秒30帧的速度生成平滑的视频,持续时间长达5.4秒,具有高时间连贯性和逼真的运动动态。它展示了与文本提示的卓越一致性,确保生成的视频准确反映了给定的指示。
Mochi 1采用了基于创新的Asymmetric Diffusion Transformer(AsymmDiT)架构构建的100亿参数扩散模型。它完全从头开始训练,是迄今为止公开发布的最大视频生成模型。此外,它还具有简单的可修改架构。
Genmo公司在年底前计划发布Mochi 1的完整版本,包括支持720p视频生成的Mochi 1 HD。这将增强保真度,使动作更加流畅,并解决复杂场景中的扭曲等问题。
妈的,我以为我写完了,没想到还有高手。
Genmo 就这么水灵灵的随手发了一个一流视频生成模型的模型文件出来。
我仔细看了一下这个他们发布的演示视频,该演示的都演示到了,包括各种概念,复杂任务运动,运镜,除了分辨率低点无可挑剔。
开发这个模型的公司 Genmo 新完成了一轮由 NEA 领投的总额为 2840 万美元的 A 轮融资。
他们这个愿景也挺好的:
解锁人工通用智能的右脑。Mochi 1 是朝着构建世界模拟器的第一步
,这些模拟器可以想象任何事情,无论是可能的还是不可能的。
我自己跑了一个效果也非常好,提示词:
Black and white portrait of Mila Kunis, dark background, shadow play, soft lighting, cinematic style。
官方网页上会有超分,视频会被超分到960P。
模型简介:
运动质量:Mochi 1 以每秒 30 帧的速度生成平滑的视频,持续时间长达 5.4 秒,具有高时间连贯性和逼真的运动动态。
Mochi 模拟物理学,如流体动力学、毛发模拟,并表现出一致、流畅的人体动作,开始跨越恐怖谷效应。
提示遵从:展示了与文本提示的卓越一致性,确保生成的视频准确反映了给定的指示。这使用户可以详细控制角色、设置和动作。
初始的视频分辨率为 480P,模型参数量为10 B。
模型架构:
Mochi 1 代表了开源视频生成的重大进步,采用了基于创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构构建的 100 亿参数扩散模型。
它完全从头开始训练,是迄今为止公开发布的最大视频生成模型。最重要的是,它是一个简单、可修改的架构。
除了 Mochi,他们还会开源视频 VAE。VAE 在因果上将视频压缩到比原始大小小 128 倍,具有 8x8 的空间压缩和 6x 的时间压缩到一个 12 通道的潜在空间。
Mochi 1 只是用单个 T5-XXL 语言模型对提示进行编码。
AsymmDiT 通过多模态自注意力同时关注文本和视觉令牌,并为每种模态学习单独的 MLP 层,类似于 Stable Diffusion 3。
Mochi 1 通过完全的 3D 注意力在一个包含 44,520 个视频标记的上下文窗口上进行联合推理。为了定位每个标记,我们将可学习的旋转位置嵌入(RoPE)扩展到 3 维。网络端到端学习了空间和时间轴的混合频率。