项目简介
基于 VITS 的语音转换, 专注于简单性、质量和性能
安装
从 GitHub Releases 下载最新版本或使用编译版本。
Windows
Linux
某些基于 Linux 的操作系统可能会遇到安装程序的复杂情况。在这种情况下,我们建议在 Python 环境版本 3.9 至 3.11 中安装 requirements.txt 。
chmod +x run-install.sh
./run-install.sh
生成文件
适用于 Paperspace 等平台
用法
请访问 Applio 文档以获取详细的 UI 使用说明。
Windows
Linux
chmod +x run-applio.sh
./run-applio.sh
Makefile
适用于 Paperspace 等平台
存储库增强功能
该存储库进行了重大增强,以提高其功能和可维护性:
-
模块化代码库:采用模块化方法重构代码库,以实现更好的组织、可读性和维护。
-
跳跃长度实现:实现了跳跃长度,由 @Mangio621 提供,提高了效率和性能,特别是在 Crepe(以
前称为 Mangio-Crepe)上。
-
30 多种语言的翻译:增加了对 30 多种语言翻译的支持,增强了全球受众的可访问性。
-
跨平台兼容性:确保跨各种平台的无缝操作,以获得一致的用户体验。
-
优化的需求:微调项目需求以提高性能和资源效率。
-
简化的安装:简化的安装过程,提供用户友好的设置体验。
-
混合 F0 估计:引入了利用 nanmedian 的个性化“混合”F0 估计方法,结合
各种方法的 F0 计算以获得最佳结果。
-
易于使用的用户界面:实现了用户友好的界面以实现直观的交互。
-
优化的代码和依赖关系:增强的代码和简化的依赖关系以提高效率。
-
插件系统:引入了用于扩展功能和定制的插件系统。
-
过度训练检测器:实现了过度训练检测器,一旦达到指定的历元限制,就会停止训练,从而防止过度训练。
-
模型搜索:将模型搜索功能直接集成到应用程序界面中,方便轻松发现模型。
-
预训练模型的增强:引入了额外的功能,例如自定义预训练模型,允许用户在安装时使用他们喜欢的预训练模型,而无需使用 RVC1 预训练模
型。
-
语
音混合器:开发了一种语音混合器功能,将两个经过训练的模型结合起来创建一个新模型,从而提供模型生成的多功能性。
-
可访问性改进:通过指示用户界面中每个元素的功能的描述性工具提示增强了可访问性,使其对所有用户更加友好。
-
新的 F0 提取方法:引入了新的 F0 提取方法,例如 FCPE 或混合,扩展了沥青提取的选项。
-
输出格式选择:实现了输出格式选择功能,允许用户选择他们想要保存音频文件的格式。
-
哈希系统:实施了哈希系统,为每个创建的模型分配一个唯一的 ID,以防止未经授权的复制或盗窃。
-
模型下载系统:增加了对从 Google Drive、Yandex、Pixeldrain、Discord、Hugging Face 或 Applio.org 等各种网站下载模型的支持,增强了模型的可访问性。
-
TTS 增强功能:改进了文本转语音功能,支持上传 TXT 文件,提高了输入法的灵活性。