极速语音识别OmniSenseVoice

GitHubStore · 公众号 · · 2024-10-11 08:44

正文

项目简介

Omni SenseVoice 基于 SenseVoice 构建，针对闪电般的快速推理和精确的时间戳进行了优化，为您提供更智能、更快速的方式来处理音频转录！

安装

pip install .

用法

omnisense transcribe [OPTIONS] AUDIO_PATH

关键选项：

--language : 自动检测语言或指定（ auto, zh, en, yue, ja, ko ）。
--textnorm ：选择是否应用逆文本标准化（ withitn for inverse normalized 或 woitn for raw ）。
--device-id ：在特定 GPU 上运行（默认值：CPU 为 -1）。
--quantize ：使用量化模型来加快处理速度。
--help : 显示详细帮助信息。

基准

omnisense benchmark -s -d --num-workers 2 --device-id 0 --batch-size 10 --textnorm woitn --language en benchmark/data/manifests/libritts/libritts_cuts_dev-clean.jsonl

Optimize	GPU	WER ⬇️	RTF ⬇️	Speed Up 🔥
baseline(onnx)	NVIDIA L4 GPU	4.47%	0.1200	1x
torch	NVIDIA L4 GPU	5.02%	0.0022	50x

With Omni SenseVoice, experience up to 50x faster processing without sacrificing accuracy.
借助 Omni SenseVoice，您可以在不牺牲准确性的情况下体验高达 50 倍的处理速度。

# LibriTTSDIR=benchmark/datalhotse download libritts -p dev-clean benchmark/dataLibriTTSlhotse prepare libritts -p dev-clean benchmark/data/LibriTTS/LibriTTS benchmark/data/manifests/libritts
lhotse cut simple --force-eager -r benchmark/data/manifests/libritts/libritts_recordings_dev-clean.jsonl.gz \    -s benchmark/data/manifests/libritts/libritts_supervisions_dev-clean.jsonl.gz \    benchmark/data/manifests/libritts/libritts_cuts_dev-clean.jsonl
omnisense benchmark -s -d --num-workers 2 --device-id 0 --batch-size 10 --textnorm woitn --language en benchmark/data/manifests/libritts/libritts_cuts_dev-clean.jsonl
omnisense benchmark -s --num-workers 4 --device-id 0 --batch-size 16 --textnorm woitn --language en benchmark/data/manifests/libritts/libritts_cuts_dev-clean.jsonl