专栏名称: NVIDIA企业开发者社区
NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台,通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。
目录
相关文章推荐
芋道源码  ·  分库分表 带来了哪些问题? ·  2 天前  
程序猿  ·  突发!百度出手,152亿元大收购 ·  3 天前  
51好读  ›  专栏  ›  NVIDIA企业开发者社区

开发者新闻 | 将加速的 Llama 3.2 从边缘部署到云端

NVIDIA企业开发者社区  · 公众号  ·  · 2024-10-22 14:36

正文


将加速的 Llama 3.2 从边缘部署到云端


扩展了开源的 Meta Llama 模型集合,Llama 3.2 集合包括视觉语言模型(VLM)、小语言模型 (SLM) 和支持视觉的更新的 Llama Guard 模型。当与 NVIDIA 加速计算平台配合使用时,Llama 3.2 为开发人员、研究人员和企业提供了宝贵的新功能和优化,以实现其生成式 AI 用例。

经过 NVIDIA Hopper 100 Tensor Core GPU 的训练,1B 和 3B 尺寸的 SLM 非常适合在边缘设备上部署基于 Llama 的 AI 助手。11B 和 90B 尺寸的 VLM 支持文本和图像输入和输出文本。通过多模式支持,VLM 可以帮助开发人员构建需要视觉基础、推理和理解的强大应用程序。例如,他们可以为图像字幕、图像文本检索、视觉问答和文档问答等构建 AI 代理。除了文本输入外,Llama Guard 模型现在还支持图像输入护栏。

Llama 3.2 模型架构是一个使用优化的变压器架构的自回归语言模型。指令调整版本使用监督微调 (SFT) 和带有人类反馈的强化学习 (RLHF) 来与人类对帮助和安全的偏好保持一致。所有模型都支持 128K 令牌的长上下文长度,并通过支持分组查询注意 (GQA) 对推理进行了优化。

NVIDIA 正在优化 Llama 3.2 模型集合,以在全球数百万个 GPU 上提供高吞吐量和低延迟-从数据中心到使用 NVIDIA RTX 的本地工作站,以及在边缘使用 NVIDIA Jetson。这篇文章描述了硬件和软件的优化、定制和易于部署的功能。




全文链接:

https://developer.nvidia.com/blog/deploying-accelerated-llama-3-2-from-the-edge-to-the-cloud/

借助 NVIDIA NeMo 实现出色的 ASR 模型 10 倍加速



NVIDIA NeMo 持续开发了设定行业基准的自动语音识别 (ASR) 模型,尤其是在 Hugging Face Open ASR 排行榜上拔得头筹的模型。

这些可将语音转录为文本的 NVIDIA NeMo ASR 模型提供了一系列旨在优化速度和准确性的架构:

CTC 模型 (nvidia/parakeet-ctc-1.1b): 此模型具有 FastConformer 编码器和 softmax 预测头。它是非自回归的,这意味着未来的预测不依赖于之前的预测,从而实现快速高效的推理。

RNN-T 模型 (nvidia/parakeet-rnnt-1.1b): 此传感器模型向FastConformer 编码器添加了预测和联合网络,使其成为自回归模型—每个预测都取决于先前的预测历史。由于此属性,人们普遍认为 RNN-T模型的 GPU 推理速度较慢,更适合CPU。

TDT 模型 (nvidia/parakeet-tdt-1.1b): 另一个传感器模型,但使用名为 token-and-duration 传感器 (TDT) 的改进传感器目标进行训练。虽然仍然是自回归模型,但它可以在每个步骤中执行多个预测,从而加快推理速度。

TDT-CTC 模型 (parakeet-tdt_ctc-110m): 这是传感器和 CTC 解码器的混合变体,可同时引入两个解码器,从而在训练期间加快收敛速度。它只需训练一个模型即可训练两个解码器。






请到「今天看啥」查看全文