专栏名称: NVIDIA企业开发者社区

NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台，通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。

开发者新闻 | 借助NVIDIA TensorRT-LLM和NVIDIA Triton推理服务器提升Meta Llama 3性能

NVIDIA企业开发者社区 · 公众号 · · 2024-05-13 10:52

正文

Mistral Large 和 Mixtral 8x22B LLM

现已由 NVIDIA NIM 和 NVIDIA API 提供支持

本周发布的模型包括两个新的 NVIDIA AI 基础模型： Mistral Large 和 Mixtral 8x22B 。这两个高级文本生成 AI 模型由 Mistral AI 开发，并通过 NVIDIA NIM 微服务提供预构建容器，以简化部署过程，将部署时间从数周缩短到几分钟。这两个模型可通过 NVIDIA API 目录访问。

Mistral Large

Mistral Large 是大型语言模型 (LLM)，它擅长处理复杂的多语种推理任务，包括文本理解、转换和代码生成。它因精通英语、法语、西班牙语、德语和意大利语以及对语法和文化语境的深入理解而脱颖而出。

该模型具有 32K 令牌上下文窗口，可从大量文档中调用精确信息。它在指令跟随和函数调用方面表现出色。Mistral Large 在各种基准测试中表现强劲，并展示了应对编码和数学挑战的强大推理能力。

全文链接：

https://developer.nvidia.com/blog/mistral-large-and-mixtral-8x22b-llms-now-powered-by-nvidia-nim-and-nvidia-api/

借助 NVIDIA TensorRT-LLM 和 NVIDIA Triton

推理服务器提升 Meta Llama 3 性能

我们很高兴地宣布支持 Meta Llama 3 系列模型，通过 NVIDIA TensorRT-LLM 加速和优化 LLM 推理性能。您现在可以立即尝试 Llama 3 8B 和 Llama 3 70B ，该系列中的第一个模型，通过浏览器用户界面进行体验。另外，您也可以通过 NVIDIA API 产品目录中的 API 端点访问 Llama 3，后者被包装为 NVIDIA NIM，提供了标准 API，能够部署在任何地方。

大型语言模型需要大量的计算资源。它们的大小使其运行成本高昂且速度缓慢，尤其是在没有正确技术的情况下。许多优化技术都可用，例如内核融合和量化到运行时优化（如 C++ 实现、KV 缓存、连续运行中批处理和分页注意力）。开发人员必须决定哪种组合有助于他们的用例。 TensorRT-LLM 简化了这项工作。

TensorRT-LLM 是一个开源库，用于加速 NVIDIA GPU 上最新的 LLM 推理性能。NeMo 是用于构建、自定义和部署生成式 AI 应用的端到端框架，并使用 TensorRT-LLM 和 NVIDIA Triton 推理服务器来进行生成式AI部署。

TensorRT-LLM 使用 NVIDIA TensorRT