专栏名称: NVIDIA企业开发者社区
NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台,通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。
目录
相关文章推荐
话沈阳  ·  不是流感,确诊2328例,紧急提醒 ·  10 小时前  
爱否科技  ·  iPhone 17 ... ·  2 天前  
51好读  ›  专栏  ›  NVIDIA企业开发者社区

开发者新闻 | 使用 NVIDIA NeMo Parakeet-TDT 涡轮增压 ASR 精度和速度

NVIDIA企业开发者社区  · 公众号  ·  · 2024-04-26 09:50

正文


使用 NVIDIA NeMo ParaKeet-TDT
涡轮
增压 ASR 精度和速度



NVIDIA NeMo 是一个端到端平台,用于在任何云端和本地大规模开发多模式生成式 AI 模型,最近发布了 Parakeet-TDT。NeMo ASR Parakeet 模型家族的新成员比以前最好的模型 Parakeet-RNNT-1.1B 拥有更高的精度和 64% 的速度。


这篇文章解释了 Parakeet-TDT 以及如何使用它来生成具有高实时因素的高精度转录,在一秒钟内处理 10 分钟的音频。


Parakeet-TDT 模型概述

Parakeet-TDT (Token-and-Duration Transducer) 是 NVIDIA 公司开发的一种新型序列建模架构。最近的研究证实,TDT 模型比类似尺寸的传统换能器具有更高的速度和识别精度。有关更多详细信息,请参阅通过联合预测令牌和持续时间的实现高效序列转导。


客观地说,拥有 11 亿个参数的 Parakeet-TDT 在精度上优于类似大小的Parakeet RNNT 1.1B,同时运行速度快 64%,这是 Hugging Face 排行榜上九个基准测试的平均表现来衡量的。


值得注意的是,Parakeet-TDT 是第一个在 Hugging Face 开放 ASR 排行榜上实现平均单词错误率 (WER) 低于 7.0 的模型 (图1)。它的实时因子 (RTF) 比 Parakeet RNNT 0.6B RTF 快 40%,尽管 Parakeet RNNT 0.6B 大约是模型大小的一半。




全文链接:

https://developer.nvidia.com/blog/turbocharge-asr-accuracy-and-speed-with-nvidia-nemo-parakeet-tdt/


基于 NVIDIA NeMo Canary 模型的

语音识别和翻译新标准


NVIDIA NeMo 是一个端到端平台,用于在任何云端和本地大规模开发多模式生成式 AI 模型。


NeMo 团队刚刚发布了 Canary,这是一个多语言模型,可以用标点符号和大写字母转录英语、西班牙语、德语和法语的语音。Canary 还提供英语和其他三种受支持语言之间的双向翻译。


这篇文章详细介绍了 Canary 模型以及如何使用它。


Canary 概述

Canary 以 6.67% 的平均单词错误率 (WER) 位居 HuggingFace Open ASR 排行榜榜首。它的性能远远超过其他所有开源模型。


Canary 是根据公共和内部数据的组合进行训练的。它使用 8.5 万小时的转录语音来学习语音识别。为了教授 Canary 翻译,我们使用 NVIDIA NeMo 文本翻译模型来生成所有支持语言的原始文本翻译。







请到「今天看啥」查看全文