专栏名称: NVIDIA企业开发者社区
NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台,通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。
目录
相关文章推荐
中国舞台美术学会  ·  资讯丨中国旅游产业十年蜕变:2014-202 ... ·  2 天前  
中国舞台美术学会  ·  聚焦丨文旅新业态含“智”量又高了 ·  昨天  
中国舞台美术学会  ·  陶庆梅:“沉浸式”演出与当代戏剧的发展 ·  2 天前  
中国舞台美术学会  ·  艺谈丨胡娜:从演艺新空间看戏曲的守正创新 ·  3 天前  
临淄发布  ·  别眨眼!这样的临淄,ài了ài了! ·  2 天前  
临淄发布  ·  别眨眼!这样的临淄,ài了ài了! ·  2 天前  
51好读  ›  专栏  ›  NVIDIA企业开发者社区

开发者新闻 | 借助NVIDIA TensorRT-LLM和NVIDIA Triton推理服务器提升Meta Llama 3性能

NVIDIA企业开发者社区  · 公众号  ·  · 2024-05-13 10:52

正文


Mistral Large 和 Mixtral 8x22B LLM

现已由 NVIDIA NIM 和 NVIDIA API 提供支持


本周发布的模型包括两个新的 NVIDIA AI 基础模型: Mistral Large Mixtral 8x22B 。这两个高级文本生成 AI 模型由 Mistral AI 开发,并通过 NVIDIA NIM 微服务提供预构建容器,以简化部署过程,将部署时间从数周缩短到几分钟。这两个模型可通过 NVIDIA API 目录访问。

Mistral Large

Mistral Large 是大型语言模型 (LLM),它擅长处理复杂的多语种推理任务,包括文本理解、转换和代码生成。它因精通英语、法语、西班牙语、德语和意大利语以及对语法和文化语境的深入理解而脱颖而出。

该模型具有 32K 令牌上下文窗口,可从大量文档中调用精确信息。它在指令跟随和函数调用方面表现出色。Mistral Large 在各种基准测试中表现强劲,并展示了应对编码和数学挑战的强大推理能力。



全文链接:

https://developer.nvidia.com/blog/mistral-large-and-mixtral-8x22b-llms-now-powered-by-nvidia-nim-and-nvidia-api/


借助 NVIDIA TensorRT-LLM 和 NVIDIA Triton

推理服务器提升 Meta Llama 3 性能


我们很高兴地宣布支持 Meta Llama 3 系列模型,通过 NVIDIA TensorRT-LLM 加速和优化 LLM 推理性能。您现在可以立即尝试 Llama 3 8B Llama 3 70B ,该系列中的第一个模型,通过浏览器用户界面进行体验。另外,您也可以通过 NVIDIA API 产品目录中的 API 端点访问 Llama 3, 后者被包装为 NVIDIA NIM, 提供了标准 API,能够部署在任何地方。

大型语言模型需要大量的计算资源。它们的大小使其运行成本高昂且速度缓慢,尤其是在没有正确技术的情况下。许多优化技术都可用,例如内核融合和量化到运行时优化(如 C++ 实现 、KV 缓存 连续运行中批处理和分页注意力)。开发人员必须决定哪种组合有助于他们的用例。 TensorRT-LLM 简化了这项工作。

TensorRT-LLM 是一个开源库,用于加速 NVIDIA GPU 上最新的 LLM 推理性能。NeMo 是用于构建、自定义和部署生成式 AI 应用的端到端框架,并使用 TensorRT-LLM NVIDIA Triton 推理服务器来进行生成式AI部署。

TensorRT-LLM 使用 NVIDIA TensorRT






请到「今天看啥」查看全文