专栏名称: 一飞开源

不飞则已，一飞冲天！探索、发现、分享开源技术应用。

目录

相关文章推荐

低维昂维 · Adv. Funct. ... · 2 天前

哈卡龙 · 国家最近为什么开始暴拉A股了？ · 2 天前

哈卡龙 · 国家最近为什么开始暴拉A股了？ · 2 天前

老张投研 · 002920，“下一个”赛力斯，无人驾驶第一 ... · 2 天前

老张投研 · 002920，“下一个”赛力斯，无人驾驶第一 ... · 2 天前

深度学习这件小事 · 有想入坑RL-LLM的同学吗？这个开源项目一 ... · 4 天前

经济日报 · 相机，为啥又“翻红”了？ · 6 天前

经济日报 · 相机，为啥又“翻红”了？ · 6 天前

51好读 › 专栏 › 一飞开源

[开源]一个简单易用的全自动视频翻译项目，快速识别视频字幕，翻译字幕

一飞开源 · 公众号 · 互联网短视频科技自媒体 · 2024-09-28 23:23

正文

一飞开源，介绍创意、新奇、有趣、实用的开源应用、系统、软件、硬件及技术，一个探索、发现、分享、使用与互动交流的开源技术社区平台。致力于打造活力开源社区，共建开源新生态！

一、开源项目简介

Video(Audio) Translation by AI

o3sky-VTAI V0.0.2

全自动视频翻译项目！该项目旨在提供一个简单易用的自动识别、翻译工具和其他视频辅助工具，帮助快速识别视频字幕、翻译字幕。

本项目开源可魔改，感谢支持！请勿在任何平台收费项目源码！

二、开源协议

使用MIT开源协议

三、界面展示

项目界面预览

1.首页

首页里面有个功能说明和系统模型设置，打开设置，这里面我们列举了模型配置、预置提示词、本地缓存等相关设置

模型配置

在模型配置里面我们可以设置本地模型以及其他第三方模型。

本地设置，点击修改配置

我们可以看到配置有3个参数

API 地址，这里填写本地访问的模型URL，URL请求地址兼容openAI标准接口，默认情况不需要修改即可 http://127.0.0.1:8000/v1

API密钥, 这里随便填写。因为我们使用本地模型，所以不需要key 可以保持默认即可。

模型名称，这里填写模型在服务端部署模型路径，我们使用了书生浦语 internlm2_5-7b-chat模型。默认/data/model/internlm2_5-7b-chat ，也可以默认不需要修改。

以上配置完成后本地模型配置就完成设置了。

其他第三方模型配置，东西比较类似我们这里以硅基智能为案例给大家介绍

点击修改配置

API 地址，这里默认已经填写好硅基智能模型接口地址，默认是不需要修改的。

API密钥，这里填写硅基智能第三方模型厂商提供的api秘钥。关于硅基智能模型申请可以访问硅基智能官网注册申请，目前该网站提供部分7B左右的小模型给大家测试使用，目前是免费使用的。可以放这个地址了解他们模型收费情况

预置提示词

这里主要是使用翻译功能所以将翻译的提示词预设模式实现配置，默认提供2种翻译预设提示词

本地缓存

这里主要记录视频、字幕、音频等上传临时存储的信息。大家根据自己的需要保留和删除。

2.功能模块

这里是该系统主要功能区域，主要有3个功能模块。媒体识别、内容助手、字幕翻译 3个功能。

2.1媒体识别

参数设置

识别设置这块我们使用本地SenseVoiceSmall模型音视频转文本模型，本地模型选择smalll模型(这个模型只有一个小模型开源)

翻译引擎

这里我们选择本地模型，当然你也可以根据自己的需要设置第三方LLM语言模型

下面的可以默认即可。

音频识别功能

本功能可以通过上传音视频文件，通过FFmpeg 对音视频进行处理，提取音视频内容信息，然后后端自动调用本地LLM模型或者第三方模型实现语言翻译功能。

等待文件上传后，我们点击右边窗体中“音视频识别”

视频识别

本功能可以通过上传视频文件，通过FFmpeg 对视频进行处理，提取视频内容信息，然后后端自动调用本地LLM模型或者第三方模型实现语言翻译功，将翻译的文字在使用FFmpeg进行合成这样就可以实现无字幕视频打上有字幕视频，单语言视频转换成双语视频，自动配置字幕功能了。

上传视频文件后，点击一键生成视频功能。后端程序对视频做视频处理，提取视频内容信息然后调用后端本地LLM模型或者使用第三方LLM模型将视频内容转换成文本，然后将转换文字在使用FFmpeg进行视频合成，这样一下就能转换成翻译后的视频了。（包含单字幕，双语字幕）

也可以分开实现，第一步生成字幕，然后调整生成的字幕在点击合成字幕这样做出的字幕合成视频将更加友好。

先生成字幕，然后更加内容可以手工调整。

2.2内容助手

内容助手主要功能是用户通过上传音视频文件，后端程序使用FFmpeg 对音视频进行处理，提取音视频内容信息。然后使用本地LLM模型或者使用第三方LLM模型进行总结归纳推理等功能。

参数设置

这里我们使用SenseVoiceSmall模型音视频转文本模型。

SenseVoice模式我们选择SenseVoiceSmall模型。

本地模型配置，我们从下拉列表中选择SenseVoiceSmall模型.其他可以保持默认，以上设置完成后点击保存参数设置。

内容问答

这里面我们可以对上传的音视频文件进行解析，然后通过LLM大模型对识别的内容进行总结和推理。比如您参加一次培训课程，通过录音笔记录了培训的内容。我们就可以使用该功能实现音视频转录+音视频内容总结提炼等功能了。相当于阿里通义听悟功能（哈哈，当然是山寨版的）

第一步，音频视频文件上传，参考上面步骤

第二步，点击开始识别。这个时候后端程序会使用ffmpeg对视频文件进行处理，处理后调用SenseVoiceSmall模型音视频转文本模型，将音视频文件转换成文本内容。

视频解析完成后，我们就可以通过文本输入框使用llm语言模型进行推理了。

2.3字幕翻译

点击字幕翻译，左小角有个SRT上传器，这里主要是通过上传字幕文件srt文件上传后，然后通过本地模型或则第三方LLM模型实现字幕自动翻译

五、技术选型

技术架构

部署架构图

本系统部署在云平台上，需要支持GPU或类似GPU加速推理的显卡等硬件资源支持，详细部署图见下图。

技术栈

硬件：显卡：

英伟达GPU 3060、4060、4070、4080、4090、A100、V100 、A800

天数智芯BI-V100

CPU：12核心

内存：32GB

存储：60GB

操作系统：Linux、widows

开发语言：python

主要依赖包：torch、torchaudio 、vllm（Linux平台）、streamlit、transformers、funasr

如何安装

更多内容请查看 README.md 文档

六、源码地址

访问一飞开源：https://code.exmay.com/

推荐文章

低维昂维 · Adv. Funct. Mater.：基于MoxRe(1−x)S2的光电突触在人工神经视觉系统的应用

2 天前

哈卡龙 · 国家最近为什么开始暴拉A股了？

2 天前

哈卡龙 · 国家最近为什么开始暴拉A股了？

2 天前

老张投研 · 002920，“下一个”赛力斯，无人驾驶第一龙头，A股潜力最大的公司！

2 天前

老张投研 · 002920，“下一个”赛力斯，无人驾驶第一龙头，A股潜力最大的公司！

2 天前

深度学习这件小事 · 有想入坑RL-LLM的同学吗？这个开源项目一个GPU够了，完成后欢迎来月之暗面~

4 天前

经济日报 · 相机，为啥又“翻红”了？

6 天前

经济日报 · 相机，为啥又“翻红”了？

6 天前

悦读文摘 · 讲真，朋友圈发这些的女生最可怕。

7 年前

做書 · 无法控制！想要抚摸他设计的图书封面！

7 年前

创业咖 · 2017,中国即将引爆新一轮的财富市场机会！

7 年前

爆笑gif图 · 世界上最难写的汉字，却被这个人用中性笔写绝了

7 年前

呵护育儿 · 宝宝中暑了可能你还不知道，快来学一学！

7 年前

Sov5搜索 · 小百科 · 移动版

51好读 - 好文章就要读起来!