Genmo开源顶流视频模型！开源视频生态起飞了朋友们

歸藏的AI工具箱 · 公众号 · AI 科技自媒体 · 2024-10-23 07:00

主要观点总结

文章介绍了Genmo公司发布的视频生成模型Mochi 1，该模型展示了出色的演示视频，并完成了一轮A轮融资。Mochi 1具有生成高质量视频的能力，包括运动质量、提示遵从、初始分辨率等特性。此外，文章还介绍了Mochi 1的架构、开源计划、未来规划以及模型体验方式。

该模型展示了各种概念、复杂任务运动、运镜等，除了分辨率较低外，无可挑剔。

Mochi 1能以每秒30帧的速度生成平滑的视频，持续时间长达5.4秒，具有高时间连贯性和逼真的运动动态。它展示了与文本提示的卓越一致性，确保生成的视频准确反映了给定的指示。

Mochi 1采用了基于创新的Asymmetric Diffusion Transformer（AsymmDiT）架构构建的100亿参数扩散模型。它完全从头开始训练，是迄今为止公开发布的最大视频生成模型。此外，它还具有简单的可修改架构。

Genmo公司在年底前计划发布Mochi 1的完整版本，包括支持720p视频生成的Mochi 1 HD。这将增强保真度，使动作更加流畅，并解决复杂场景中的扭曲等问题。

妈的，我以为我写完了，没想到还有高手。

Genmo 就这么水灵灵的随手发了一个一流视频生成模型的模型文件出来。

我仔细看了一下这个他们发布的演示视频，该演示的都演示到了，包括各种概念，复杂任务运动，运镜，除了分辨率低点无可挑剔。

开发这个模型的公司 Genmo 新完成了一轮由 NEA 领投的总额为 2840 万美元的 A 轮融资。

他们这个愿景也挺好的： 解锁人工通用智能的右脑。Mochi 1 是朝着构建世界模拟器的第一步 ，这些模拟器可以想象任何事情，无论是可能的还是不可能的。

我自己跑了一个效果也非常好，提示词：

Black and white portrait of Mila Kunis, dark background, shadow play, soft lighting, cinematic style。

官方网页上会有超分，视频会被超分到960P。

运动质量：Mochi 1 以每秒 30 帧的速度生成平滑的视频，持续时间长达 5.4 秒，具有高时间连贯性和逼真的运动动态。

Mochi 模拟物理学，如流体动力学、毛发模拟，并表现出一致、流畅的人体动作，开始跨越恐怖谷效应。

提示遵从：展示了与文本提示的卓越一致性，确保生成的视频准确反映了给定的指示。这使用户可以详细控制角色、设置和动作。

初始的视频分辨率为 480P，模型参数量为10 B。 null

Mochi 1 代表了开源视频生成的重大进步，采用了基于创新的 Asymmetric Diffusion Transformer（AsymmDiT）架构构建的 100 亿参数扩散模型。

它完全从头开始训练，是迄今为止公开发布的最大视频生成模型。最重要的是，它是一个简单、可修改的架构。

除了 Mochi，他们还会开源视频 VAE。VAE 在因果上将视频压缩到比原始大小小 128 倍，具有 8x8 的空间压缩和 6x 的时间压缩到一个 12 通道的潜在空间。

Mochi 1 只是用单个 T5-XXL 语言模型对提示进行编码。

AsymmDiT 通过多模态自注意力同时关注文本和视觉令牌，并为每种模态学习单独的 MLP 层，类似于 Stable Diffusion 3。

Mochi 1 通过完全的 3D 注意力在一个包含 44,520 个视频标记的上下文窗口上进行联合推理。为了定位每个标记，我们将可学习的旋转位置嵌入（RoPE）扩展到 3 维。网络端到端学习了空间和时间轴的混合频率。