专栏名称: NVIDIA企业开发者社区
NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台,通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。
目录
相关文章推荐
高分子科技  ·  江南大学殷允杰团队 ... ·  2 天前  
高分子科技  ·  重庆大学尹志刚教授团队 The ... ·  3 天前  
高分子科学前沿  ·  郑州大学张亚涛、朱军勇AFM:基于温度诱导分 ... ·  3 天前  
高分子科学前沿  ·  乙烯环氧化,登上Science! ·  3 天前  
51好读  ›  专栏  ›  NVIDIA企业开发者社区

开发者新闻 | NVIDIA TensorRT-LLM 现在通过飞行中批处理加速编码器-解码器模型

NVIDIA企业开发者社区  · 公众号  ·  · 2024-12-24 13:57

正文

NVIDIA TensorRT-LLM

现在通过飞行 中批处理加速编码器-解码器模型


NVIDIA 最近宣布 NVIDIA TensorRT-LLM 现在可以加速编码器-解码器模型架构。TensorRT-LLM 是一个开源库,可以优化各种模型架构的推理,包括以下内容:

  • 仅解码器的模型,如 Llama 3.1
  • 混合专家 (MoE) 模型,如 Mixtral
  • 选择性状态空间模型 (SSM),如 Mamba
  • 视觉语言和视频语言应用的多模态模型

编码器-解码器模型支持的增加进一步扩展了 TensorRT-LLM 功能,为 NVIDIA GPU 上更广泛的生成式 AI 应用程序提供了高度优化的推理。

TensorRT-LLM 使用 NVIDIA TensorRT 深度学习编译器。它包括最新优化的内核,用于 LLM 模型执行的不同注意力机制的尖端实现。它还包括预处理和后处理步骤和多 GPU/ 多节点通信原语,使用简单、开源的 API,在 GPU 上实现突破性的 LLM 推理性能。

TensorRT-LLM 解决了编码器-解码器模型系列(如 T5、 mT5、Flan-T5、BART、mBART、FairSeq NMT、UL2 和 Flan-UL2)中的细微差异,抽象了通用组件和衍生组件,并为编码器-解码器模型提供了通用支持。它还支持多 GPU/ 多节点推理,通过全张量并行 (TP),管道并行 (PP),以及这些模型的两者的混合。

有关更多信息,包括不同的模型、不同的优化和多 GPU 执行,请参阅编码器-解码器模型支持。




全文链接:

https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-accelerates-encoder-decoder-models-with-in-flight-batching/

借助 NVIDIA AI 蓝图创建客户服务

AI 虚拟助理的三大核心组件



在当今快节奏的商业环境中,提供卓越的客户服务已不再是一种好事情,而是一种必要条件。无论是解决技术问题、解决计费问题,还是提供服务更新,客户都期望在方便时得到快速、准确和个性化的响应。然而,实现这种服务水平面临重大挑战。

传统方法,例如静态脚本或手动流程,通常在提供个性化和实时支持方面存在不足。此外,许多客户服务运营依赖于敏感和零碎的数据,这些数据受严格的数据治理和隐私法规的约束。随着生成式 AI 的兴起,公司旨在通过提高运营效率、降低成本和最大限度地提高投资回报率(ROI)来革新客户服务。






请到「今天看啥」查看全文