专栏名称: NVIDIA企业开发者社区

NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台，通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。

开发者新闻 | NVIDIA TensorRT-LLM 现在通过飞行中批处理加速编码器-解码器模型

NVIDIA企业开发者社区 · 公众号 · · 2024-12-24 13:57

正文

NVIDIA TensorRT-LLM

现在通过飞行 中批处理加速编码器-解码器模型

NVIDIA 最近宣布 NVIDIA TensorRT-LLM 现在可以加速编码器-解码器模型架构。TensorRT-LLM 是一个开源库，可以优化各种模型架构的推理，包括以下内容：

仅解码器的模型，如 Llama 3.1
混合专家 (MoE) 模型，如 Mixtral
选择性状态空间模型 (SSM)，如 Mamba
视觉语言和视频语言应用的多模态模型

编码器-解码器模型支持的增加进一步扩展了 TensorRT-LLM 功能，为 NVIDIA GPU 上更广泛的生成式 AI 应用程序提供了高度优化的推理。

TensorRT-LLM 使用 NVIDIA TensorRT 深度学习编译器。它包括最新优化的内核，用于 LLM 模型执行的不同注意力机制的尖端实现。它还包括预处理和后处理步骤和多 GPU/ 多节点通信原语，使用简单、开源的 API，在 GPU 上实现突破性的 LLM 推理性能。

TensorRT-LLM 解决了编码器-解码器模型系列（如 T5、 mT5、Flan-T5、BART、mBART、FairSeq NMT、UL2 和 Flan-UL2）中的细微差异，抽象了通用组件和衍生组件，并为编码器-解码器模型提供了通用支持。它还支持多 GPU/ 多节点推理，通过全张量并行 (TP)，管道并行 (PP)，以及这些模型的两者的混合。

有关更多信息，包括不同的模型、不同的优化和多 GPU 执行，请参阅编码器-解码器模型支持。

全文链接：

https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-accelerates-encoder-decoder-models-with-in-flight-batching/