项目简介
YouDub-webui
是
YouDub
项目的网页交互版本,基于
Gradio
构建,为用户提供简易操作界面来访问和使用
YouDub
的强大功能。
YouDub
是一个开创性的开源工具,旨在将 YouTube 和其他平台上的高质量视频翻译和配音成中文版本。该工具结合了最新的 AI 技术,包括语音识别、大型语言模型翻译,以及 AI 声音克隆技术,提供与原视频相似的中文配音,为中文用户提供卓越的观看体验。
YouDub-webui
适用于多种场景,包括教育、娱乐和专业翻译,特别适合那些希望将国外优秀视频内容本地化的用户。此工具的简洁界面使得即使是非技术用户也能轻松上手,实现视频的快速中文化处理。
了解更多关于
YouDub-webui
的信息和示例,请访问我们的 bilibili 视频主页。为了更好地服务社区,我们也设立了微信群组,欢迎通过扫描下方的二维码加入我们,共同探讨和贡献于
YouDub-webui
的发展。
主要特点
YouDub-webui
融合了多项先进技术,提供了一套完整的视频中文化工具包,其主要特点包括:
-
视频下载
: 支持通过链接直接下载 YouTube 视频。无论是单个视频、播放列表还是频道内的多个视频,均能轻松下载。
-
AI 语音识别
: 利用先进的 AI 技术,将视频中的语音高效转换为文字。不仅提供精确的语音到文本转换,还能自动对齐时间并识别不同说话者,极大地增强了信息的丰富性和准确性。
-
大型语言模型翻译
: 结合大型语言模型如 GPT,实现快速且精准的中文翻译。无论是俚语还是专业术语,均能得到恰当的翻译,确保内容的准确性与地道性。
-
AI 声音克隆
: 通过 AI 声音克隆技术,生成与原视频配音相似的中文语音。这不仅提升了视频的观看体验,也保留了原视频的情感和语调特色。
-
视频处理
: 综合了音视频同步处理、字幕添加、视频播放速度调整和帧率设置等多项功能。用户可以根据需要生成高质量的最终视频,实现无缝的观看体验。
-
自动上传
: 支持将最终视频自动上传到 Bilibili 平台。用户可以在不离开
YouDub-webui
的情况下,将视频上传到 Bilibili 平台,实现一键式的视频中文化处理。
YouDub-webui
的这些特点使其成为一个强大且易于使用的视频中文化工具,无论是个人用户还是专业团队,都能从中受益。
安装与使用指南
为了使用
YouDub-webui
,请遵循以下步骤来安装和配置您的环境:
1. 克隆仓库
首先,克隆
YouDub-webui
仓库到您的本地系统:
2. 安装依赖
您可以选择自动安装或手动安装依赖:
自动安装
手动安装
cd YouDub-webui
pip install -r requirements.txt
3. 环境设置
在运行前,请配置环境变量:
4. 运行程序
选择以下任一方式运行程序:
自动运行
手动运行
使用步骤
-
全自动 (Do Everything)
此界面是一个一站式的解决方案,它将执行从视频下载到视频合成的所有步骤。
-
Root Folder
: 设置视频文件的根目录。
-
Video URL
: 输入视频或播放列表或频道的URL。
-
Number of videos to download
: 设置要下载的视频数量。
-
Resolution
: 选择下载视频的分辨率。
-
Demucs Model
: 选择用于音频分离的Demucs模型。
-
Demucs Device
: 选择音频分离的处理设备。
-
Number of shifts
: 设置音频分离时的移位数。
-
Whisper Model
: 选择用于语音识别的Whisper模型。
-
Whisper Download Root
: 设置Whisper模型的下载根目录。
-
Whisper Batch Size
: 设置Whisper处理的批量大小。
-
Whisper Diarization
: 选择是否进行说话者分离。
-
Translation Target Language
: 选择字幕的目标翻译语言。
-
Force Bytedance
: 选择是否强制使用Bytedance语音合成。
-
Subtitles
: 选择是否在视频中包含字幕。
-
Speed Up
: 设置视频播放速度。
-
FPS
: 设置视频的帧率。
-
Max Workers
: 设置处理任务的最大工作线程数。
-
Max Retries
: 设置任务失败后的最大重试次数。
-
Auto Upload Video
: 选择是否自动上传视频到Bilibili。
2.
下载视频 (Download Video)
此界面用于单独下载视频。
-
Video URL
: 输入视频或播放列表或频道的URL。
-
Output Folder
: 设置视频下载后的输出文件夹。
-
Resolution
: 选择下载视频的分辨率。
-
Number of videos to download
: 设置要下载的视频数量。
3.
人声分离 (Demucs Interface)
此界面用于从视频中分离人声。
-
Folder
: 设置包含视频的文件夹。
-
Model
: 选择用于音频分离的Demucs模型。
-
Device
: 选择音频分离的处理设备。
-
Progress Bar in Console
: 选择是否在控制台显示进度条。
-
Number of shifts
: 设置音频分离时的移位数。
4.
语音识别 (Whisper Inference)
此界面用于从视频音频中进行语音识别。
-
Folder
: 设置包含视频的文件夹。
-
Model
: 选择用于语音识别的Whisper模型。
-
Download Root
: 设置Whisper模型的下载根目录。
-
Device
: 选择语音识别的处理设备。
-
Batch Size
: 设置Whisper处理的批量大小。
-
Diarization
: 选择是否进行说话者分离。
5.
字幕翻译 (Translation Interface)
此界面用于将识别出的语音转换为字幕并翻译。
6.
语音合成 (TTS Interface)
此界面用于将翻译后的文字转换为语音。
7.
视频合成 (Synthesize Video Interface)
此界面用于将视频、字幕和语音合成为最终视频。
技术细节