专栏名称: 歸藏的AI工具箱
产品设计师🎨 AI画图工具操作员🔧 AI课程撰写与信息收集整理📰 致力于发掘借助AI工具改善设计与产品开发流程的各种可能性🤔
目录
相关文章推荐
1039调查团  ·  航空公司客服倒卖艺人航班信息,被判刑! ·  2 天前  
1039调查团  ·  航空公司客服倒卖艺人航班信息,被判刑! ·  2 天前  
数智前线  ·  DeepSeek让多地智算中心停建?业界总结 ... ·  2 天前  
爱可可-爱生活  ·  【[1.2k星] Cloudflare ... ·  3 天前  
机器之心  ·  飞书接入DeepSeek-R1后,用一次顶一 ... ·  3 天前  
51好读  ›  专栏  ›  歸藏的AI工具箱

Genmo开源顶流视频模型!开源视频生态起飞了朋友们

歸藏的AI工具箱  · 公众号  · AI 科技自媒体  · 2024-10-23 07:00

主要观点总结

文章介绍了Genmo公司发布的视频生成模型Mochi 1,该模型展示了出色的演示视频,并完成了一轮A轮融资。Mochi 1具有生成高质量视频的能力,包括运动质量、提示遵从、初始分辨率等特性。此外,文章还介绍了Mochi 1的架构、开源计划、未来规划以及模型体验方式。

关键观点总结

关键观点1: Genmo公司发布了一流视频生成模型的模型文件。

该模型展示了各种概念、复杂任务运动、运镜等,除了分辨率较低外,无可挑剔。

关键观点2: Mochi 1模型的特点。

Mochi 1能以每秒30帧的速度生成平滑的视频,持续时间长达5.4秒,具有高时间连贯性和逼真的运动动态。它展示了与文本提示的卓越一致性,确保生成的视频准确反映了给定的指示。

关键观点3: Mochi 1的架构与技术创新。

Mochi 1采用了基于创新的Asymmetric Diffusion Transformer(AsymmDiT)架构构建的100亿参数扩散模型。它完全从头开始训练,是迄今为止公开发布的最大视频生成模型。此外,它还具有简单的可修改架构。

关键观点4: Genmo公司的未来规划。

Genmo公司在年底前计划发布Mochi 1的完整版本,包括支持720p视频生成的Mochi 1 HD。这将增强保真度,使动作更加流畅,并解决复杂场景中的扭曲等问题。


正文

妈的,我以为我写完了,没想到还有高手。

Genmo 就这么水灵灵的随手发了一个一流视频生成模型的模型文件出来。

我仔细看了一下这个他们发布的演示视频,该演示的都演示到了,包括各种概念,复杂任务运动,运镜,除了分辨率低点无可挑剔。

开发这个模型的公司 Genmo 新完成了一轮由 NEA 领投的总额为 2840 万美元的 A 轮融资。

他们这个愿景也挺好的: 解锁人工通用智能的右脑。Mochi 1 是朝着构建世界模拟器的第一步 ,这些模拟器可以想象任何事情,无论是可能的还是不可能的。

我自己跑了一个效果也非常好,提示词:

Black and white portrait of Mila Kunis, dark background, shadow play, soft lighting, cinematic style。

官方网页上会有超分,视频会被超分到960P。

模型简介:

运动质量:Mochi 1 以每秒 30 帧的速度生成平滑的视频,持续时间长达 5.4 秒,具有高时间连贯性和逼真的运动动态。

Mochi 模拟物理学,如流体动力学、毛发模拟,并表现出一致、流畅的人体动作,开始跨越恐怖谷效应。

提示遵从:展示了与文本提示的卓越一致性,确保生成的视频准确反映了给定的指示。这使用户可以详细控制角色、设置和动作。

初始的视频分辨率为 480P,模型参数量为10 B。

模型架构:

Mochi 1 代表了开源视频生成的重大进步,采用了基于创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构构建的 100 亿参数扩散模型。

它完全从头开始训练,是迄今为止公开发布的最大视频生成模型。最重要的是,它是一个简单、可修改的架构。

除了 Mochi,他们还会开源视频 VAE。VAE 在因果上将视频压缩到比原始大小小 128 倍,具有 8x8 的空间压缩和 6x 的时间压缩到一个 12 通道的潜在空间。

Mochi 1 只是用单个 T5-XXL 语言模型对提示进行编码。

AsymmDiT 通过多模态自注意力同时关注文本和视觉令牌,并为每种模态学习单独的 MLP 层,类似于 Stable Diffusion 3。

Mochi 1 通过完全的 3D 注意力在一个包含 44,520 个视频标记的上下文窗口上进行联合推理。为了定位每个标记,我们将可学习的旋转位置嵌入(RoPE)扩展到 3 维。网络端到端学习了空间和时间轴的混合频率。







请到「今天看啥」查看全文