专栏名称: NVIDIA企业开发者社区

NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台，通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。

开发者新闻 | 借助 NVIDIA JetPack 6.0 助力边缘云原生微服务，现已正式发布

NVIDIA企业开发者社区 · 公众号 · · 2024-06-28 19:50

正文

借助 NVIDIA JetPack 6.0

助力边缘云原生微服务， 现已正式发布

NVIDIA JetPack SDK 为 NVIDIA Jetson 模组提供支持，为构建端到端加速的 AI 应用提供全面的解决方案。JetPack 6 通过微服务和一系列新功能扩展了 Jetson 平台的灵活性和可扩展性。这是 JetPack 2024 年下载次数最多的版本。

随着 JetPack 6.0 正式发布，开发者可以满怀信心地将这些新功能引入更先进的嵌入式 AI 和机器人应用。本文重点介绍了主要功能和新的 AI 工作流程。

JetPack 6 功能亮点

JetPack 6 支持在 Jetson 上扩展一系列基于 Linux 的发行版。其中包括Canonical 的 Ubuntu 服务器、Redhat 的 RHEL 9.4、SUSE、Wind River Linux、Redhawk Real Time OS 以及各种基于 Yocto 的发行版。这些基于 Linux 的发行版在 Jetson 上提供了商业支持的企业产品，可以放心地部署和管理基于 Jetson 的产品。

运行任何Linux内核的能力使 Jetson 客户能够使用他们选择的内核版本，并避免不得不花费资源将其驱动反向移植到特定的 Jetson Linux 内核。Jetson 客户可以独立于 JetPack 路线图维护其内核。

借助 JetPack 6，您可以自由升级计算堆栈，而无需升级 Jetson Linux BSP。此功能在社区中特别受欢迎。

此外，JetPack 6 还将 Jetson 平台服务添加到 Jetson Linux BSP 和Jetson AI Stack 中。Jetson 平台服务是一套预构建和可定制的服务，旨在加速Jetson 设备上的 AI 应用程序开发。这些模块化服务集合支持由 API 驱动和分解的真正云原生应用。

全文链接：

https://developer.nvidia.com/blog/power-cloud-native-microservices-at-the-edge-with-nvidia-jetpack-6-0-now-ga/

在 cuBLAS 中引入分组 GEMM API 以及更多性能更新

最新版本 NVIDIA cuBLAS 库版本 12.5 将继续为深度学习 (DL) 和高性能计算 (HPC) 工作负载提供功能和性能。本文将概述自版本 12.0 以来 cuBLAS 矩阵乘法（matrix multiplications）中的以下更新：

适用于单精度、双精度和半精度的分组 GEMM API
最新的 LLM matmul 性能 NVIDIA Hopper (H100 和 H200) 和 NVIDIA Ada (L40S) GPU
关于 cuBLAS 性能调整选项、基准测试和 API 推荐的说明
改进了 cuBLASLt 中的功能覆盖范围

Grouped GEMM API

分组的 GEMM API 可视为批量 API 的泛化，可在一次内核启动中对不同的矩阵大小、转置和缩放因子进行分组和并行化。

这种方法提供加速的一个示例是多专家 (MoE) 模型的批量大小为 8 和 64，以及 FP16 输入和输出。在本示例中，分组的 GEMM API 可以使用批量 GEMM API 实现比单纯循环快 1.2 倍的速度。

这一点令人印象深刻，因为当前分组的 GEMM 核函数仅利用线程束级 MMA 指令。它们已证明可以与利用线程束级 MMA (wgmma) 指令的分批 GEMM 核函数进行竞争。

开发者新闻 | 借助 NVIDIA JetPack 6.0 助力边缘云原生微服务，现已正式发布

正文

请到「今天看啥」查看全文