专栏名称: GitHubStore
分享有意思的开源项目
目录
相关文章推荐
sven_shi  ·  我回答了 @王胖胖它爸 ... ·  昨天  
软件小妹  ·  又可白嫖了,安卓和iOS均可使用! ·  昨天  
软件小妹  ·  又可白嫖了,安卓和iOS均可使用! ·  昨天  
晨枫老苑  ·  战斗机换发是否需要重新研发发动机数控 ·  2 天前  
晨枫老苑  ·  战斗机换发是否需要重新研发发动机数控 ·  2 天前  
城市财经  ·  房价仍在调整!第一省会,尴尬了! ·  3 天前  
城市财经  ·  房价仍在调整!第一省会,尴尬了! ·  3 天前  
51好读  ›  专栏  ›  GitHubStore

视频生成神器:genmoai-smol

GitHubStore  · 公众号  · 科技创业 科技自媒体  · 2024-11-03 09:40

主要观点总结

文章介绍了Mochi 1开源视频生成模型的特点和相关信息。

关键观点总结

关键观点1: 项目简介

Mochi 1是一个开源的视频生成模型,专为单GPU设备优化,旨在减少显存占用,让视频创作更简单。

关键观点2: 模型特点

Mochi 1具有高保真度运动和即时依从性,缩小了封闭式和开放式视频生成系统之间的差距。

关键观点3: 技术细节

Mochi 1模型架构基于新颖的非对称扩散变压器(AsymmDiT)构建,完全从头开始训练,是有史以来最大的视频生成模型。它可以在单个GPU节点上运行,优化后适用于具有减少的VRAM的设备。

关键观点4: 安装与运行

提供了模型的安装指南和运行步骤,包括使用uv安装、下载权重、启动渐变UI或直接从CLI生成视频等详细操作。

关键观点5: 开源与合作

项目在宽松的Apache 2. -license下发布,并提供了项目链接、技术交流群等信息,欢迎关注GitHubStore并寻求合作。


正文

项目简介

一个开源的视频生成模型,专为单GPU设备优化,减少显存占用,让视频创作更简单


Mochi 1预览版是一个开放的最先进的视频生成模型,具有高保真度运动和初步评估中强烈的即时依从性。该模型极大地缩小了封闭式和开放式视频生成系统之间的差距。我们将在宽松的 Apache 2.0 许可证下发布该模型。在我们的游乐场上免费尝试这个模型。



这是Genmoai txt2video 模型的一个正在进行中的分支,经过优化,可以在具有减少的 VRAM 的单个 GPU 节点上运行。


48GB 的性能相当强大,但现在应该只能使用单个 24GB GPU 来运行。


适合 24GB VRAM 爱好者

不要超过 61 帧并尝试 640x480。VRAM 主要使用帧数和分辨率。推理步骤不应改变 VRAM 使用,但创建视频所需的时间会随着步骤而变化。100 步似乎没问题,可能需要 15-25 分钟。原始源使用了 200 个步骤,但这将花费大约两倍的时间。


Windows 尚未测试,但它可能可以工作吗?˙\ (ツ)


如果您的系统已经使用 VRAM 来运行桌面,您可能需要进一步降低设置。


技术

大多数情况下,只是在不需要时将 vae、te、dit 等来回转移到 cpu,并在各处使用 bfloat16。这可能需要大量的系统 RAM (~64GB),或者如果系统 RAM 为 <=32G,因为 T5 和 DIT 仍然相当大,则如果必须恢复使用页面文件,则可能会特别慢。与 DIT 步骤中花费的推理时间相比,来回移动模型的时间相当短。


安装

使用uv安装:

git clone https://github.com/genmoai/modelscd models pip install uvuv venv .venvsource .venv/bin/activateuv pip install -e .

下载权重

从Hugging Face或通过下载权重 magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce 到计算机上的文件夹。


运行

启动渐变 UI

python3 -m mochi_preview.gradio_ui --model_dir ""

或者直接从 CLI 生成视频

python3 -m mochi_preview.infer --prompt "A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere." --seed 1710977262 --cfg-scale 4.5 --model_dir ""


代替 与模型目录的路径。


模型架构

Mochi 1 代表了开源视频生成领域的重大进步,具有基于我们新颖的非对称扩散变压器 (AsymmDiT) 架构构建的 100 亿参数扩散模型。它完全从头开始训练,是有史以来公开发布的最大的视频生成模型。最重要的是,它是一个简单、可破解的架构。此外,我们还发布了一个推理工具,其中包括高效的上下文并行实现。


除了 Mochi 之外,我们还开源了我们的视频 AsymmVAE。我们使用非对称编码器-解码器结构来构建高效的高质量压缩模型。我们的 AsymmVAE 因果地将视频压缩到 128 倍小尺寸,并通过 8x8 空间压缩和 6x 时间压缩到 12 通道潜在空间。







请到「今天看啥」查看全文