专栏名称: NVIDIA企业开发者社区

NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台，通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。

开发者新闻 | 将加速的 Llama 3.2 从边缘部署到云端

NVIDIA企业开发者社区 · 公众号 · · 2024-10-22 14:36

正文

将加速的 Llama 3.2 从边缘部署到云端

扩展了开源的 Meta Llama 模型集合，Llama 3.2 集合包括视觉语言模型(VLM)、小语言模型 (SLM) 和支持视觉的更新的 Llama Guard 模型。当与 NVIDIA 加速计算平台配合使用时，Llama 3.2 为开发人员、研究人员和企业提供了宝贵的新功能和优化，以实现其生成式 AI 用例。

经过 NVIDIA Hopper 100 Tensor Core GPU 的训练，1B 和 3B 尺寸的 SLM 非常适合在边缘设备上部署基于 Llama 的 AI 助手。11B 和 90B 尺寸的 VLM 支持文本和图像输入和输出文本。通过多模式支持，VLM 可以帮助开发人员构建需要视觉基础、推理和理解的强大应用程序。例如，他们可以为图像字幕、图像文本检索、视觉问答和文档问答等构建 AI 代理。除了文本输入外，Llama Guard 模型现在还支持图像输入护栏。

Llama 3.2 模型架构是一个使用优化的变压器架构的自回归语言模型。指令调整版本使用监督微调 (SFT) 和带有人类反馈的强化学习 (RLHF) 来与人类对帮助和安全的偏好保持一致。所有模型都支持 128K 令牌的长上下文长度，并通过支持分组查询注意 (GQA) 对推理进行了优化。

NVIDIA 正在优化 Llama 3.2 模型集合，以在全球数百万个 GPU 上提供高吞吐量和低延迟-从数据中心到使用 NVIDIA RTX 的本地工作站，以及在边缘使用 NVIDIA Jetson。这篇文章描述了硬件和软件的优化、定制和易于部署的功能。

全文链接：

https://developer.nvidia.com/blog/deploying-accelerated-llama-3-2-from-the-edge-to-the-cloud/

借助 NVIDIA NeMo 实现出色的 ASR 模型 10 倍加速

NVIDIA NeMo 持续开发了设定行业基准的自动语音识别 (ASR) 模型，尤其是在 Hugging Face Open ASR 排行榜上拔得头筹的模型。

这些可将语音转录为文本的 NVIDIA NeMo ASR 模型提供了一系列旨在优化速度和准确性的架构：

CTC 模型 (nvidia/parakeet-ctc-1.1b)： 此模型具有 FastConformer 编码器和 softmax 预测头。它是非自回归的，这意味着未来的预测不依赖于之前的预测，从而实现快速高效的推理。

RNN-T 模型 (nvidia/parakeet-rnnt-1.1b)： 此传感器模型向FastConformer 编码器添加了预测和联合网络，使其成为自回归模型—每个预测都取决于先前的预测历史。由于此属性，人们普遍认为 RNN-T模型的 GPU 推理速度较慢，更适合CPU。

TDT 模型 (nvidia/parakeet-tdt-1.1b)： 另一个传感器模型，但使用名为 token-and-duration 传感器 (TDT) 的改进传感器目标进行训练。虽然仍然是自回归模型，但它可以在每个步骤中执行多个预测，从而加快推理速度。

TDT-CTC 模型 (parakeet-tdt_ctc-110m)： 这是传感器和 CTC 解码器的混合变体，可同时引入两个解码器，从而在训练期间加快收敛速度。它只需训练一个模型即可训练两个解码器。

开发者新闻 | 将加速的 Llama 3.2 从边缘部署到云端

正文

请到「今天看啥」查看全文