专栏名称: NVIDIA企业开发者社区
NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台,通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。
目录
相关文章推荐
掌上铜山  ·  不要下载!不要下载!不要下载! ·  15 小时前  
极光新闻 东北网  ·  反转了!央视曝光:假的,是摆拍! ·  2 天前  
极光新闻 东北网  ·  反转了!央视曝光:假的,是摆拍! ·  2 天前  
智在点滴  ·  清华大学 DeepSeek ... ·  2 天前  
智在点滴  ·  清华大学 DeepSeek ... ·  2 天前  
今日五莲  ·  警方提醒!家里不建议安装! ·  2 天前  
今日五莲  ·  警方提醒!家里不建议安装! ·  2 天前  
艾锋降级  ·  Trollstore 巨魔在线安装,真实有效 ·  3 天前  
艾锋降级  ·  Trollstore 巨魔在线安装,真实有效 ·  3 天前  
51好读  ›  专栏  ›  NVIDIA企业开发者社区

利用 NVIDIA DOCA 平台框架助力新一代 DPU 加速的云基础设施

NVIDIA企业开发者社区  · 公众号  ·  · 2025-01-27 16:10

正文


越来越多的企业开始采用加速计算,从而满足生成式 AI、5G 电信和主权云的需求。NVIDIA 推出了 DOCA 平台框架(DPF) ,该框架提供了基础构建模块来释放 NVIDIA BlueField DPU 的强大功能,并优化 GPU 加速计算平台。作为一种编排框架和实施蓝图,DPF 使开发者、服务提供商和企业能够无缝构建 BlueField 加速的云原生软件平台。


通过简化 DPU 配置、生命周期管理和服务编排,DPF 使 BlueField DPU 可在 Kubernetes 环境中广泛使用,以加速 AI 和其他现代工作负载。此外,DPF 还增强了 BlueField 加速应用程序和服务的活跃生态系统,推动了可扩展云平台的发展。


解决云基础设施中的一个关键差距


随着 DPF 的推出,NVIDIA 正在 DPU 上实现大胆的飞跃。DPF 标志着向更现代化的云基础设施迈出了重要的一步,有助于重新定义如何将 BlueField DPU 集成到数据中心,以应对性能、效率和安全性方面的关键挑战。


NVIDIA BlueField DPU 已经提供了一种高性能、可扩展的解决方案,从而替代传统以 CPU 为中心的基础设施,它可从主机 CPU 卸载关键的网络、存储和安全功能,以加速数据中心运营。然而,到目前为止,在数据中心规模管理 DPU 驱动的服务一直是一个散碎且繁琐的过程。


这就是 DPF 的作用所在:一个专用框架,可简化 BlueField 加速云基础设施的部署、编排和扩展。DPF 将 Kubernetes 控制平面功能扩展到 DPU,使管理员能够直接在 BlueField DPU 上部署和编排 NVIDIA DOCA 服务和基于 DOCA 的第三方服务。


DPF 配备了用于无缝集成的专用 SDK,可为开发者提供一致的模块化工具包,以便在 BlueField DPU 集群中轻松管理软件。这缩短了时间并降低了复杂性,使开发者能够专注于构建强大的软件平台和具有高影响力的应用程序,而不是管理 DPU 的软件编排。


此外,DPF 在生态系统中发挥着至关重要的作用,使基础设施独立软件供应商(ISV)能够满怀信心地构建和集成 BlueField 应用程序。通过提供标准化的 API 和工具,DPF 可确保这些应用程序在 BlueField 加速的基础设施上无缝运行。这也使服务提供商和企业受益,使他们能够利用强大的加速服务组合来构建高性能、安全且高效的云平台。


为了简化和优化云原生环境的 DPU 管理,DPF 解决了两个主要工作流程:

  • DPU 配置和生命周期管理: 涵盖部署 BlueField DPU 的初始步骤,包括固件和软件的安装和配置,以及持续的维护任务。

  • DPU 服务管理和编排: 涉及部署和管理基础设施服务,如 SDN 控制器软件、存储目标软件、防火墙、负载均衡器等,包括服务功能链。


高效的 DPU 配置和生命周期管理


DPF 为 BlueField DPU 配置和生命周期管理提供端到端支持,自动执行固件更新、刷写和配置等流程,以简化设置并减少停机时间。BlueField DPU 的配置、设置、监测和故障排除等关键任务均已得到简化,从而更轻松地大规模集成和运行 BlueField DPU。


DPF 为整个数据中心内的每个 BlueField 维护更新状态,从而实现对 DPU 运行状况做出动态响应。当 DPU 需要维护时,DPF 可以主动以受控方式删除节点,从而最大限度地减少或消除对活动生产工作负载的影响。通过滚动更新功能,管理员可以通过指定一次要更新的 BlueField DPU 百分比来控制批量更新,从而避免可能影响系统稳定性的大规模更新。实时运行状况监测和警报使管理员能够快速识别和解决问题,这对于电信和 AI 驱动的数据中心等高可靠性环境至关重要。


通过公开的 API 和自定义资源定义(CRD),DPF 可实现 BlueField DPU 生命周期的自动化,使云运营商能够从其标准 K8s 控制平面管理与 BlueField 绑定的服务,从而为 K8s 工作节点和 DPU 提供统一的“单一界面”视图和控制。


DPF 实施蓝图基于上游 Kubernetes,其允许技术合作伙伴根据不同的基础设施需求和企业产品来调整和扩展框架。


全面的 DPU 服务管理和编排


DPF 将 BlueField DPU 无缝集成到基于 Kubernetes 的工作流程中,从而将云原生环境的复杂性提升到新的水平。通过引入专用的辅助 Kubernetes 控制平面,DPF 使管理员能够高效管理部署在 BlueField DPU 上的 NVIDIA DOCA 服务和基于 DOCA 的第三方应用程序。DPF Operator 自主管理此辅助 DPU Kubernetes 控制平面,监督服务部署、监测和生命周期管理的各个方面。


DPF 旨在将 DPU 管理的复杂性抽象化,使管理员仅使用熟悉的 Kubernetes 结构与主 Kubernetes 控制平面进行交互,从而无需直接管理 DPU 控制层。DPF 还为 ISV 提供了灵活性,使他们能够实现自己的 Kubernetes 控制平面,以实现自定义的 BlueField 服务管理和编排。


通过优化 BlueField DPU 集群中的服务编排,DPF 简化了复杂分布式工作负载的部署和管理。凭借强大的生命周期管理功能,DPF 支持无缝的服务更新、扩展和回滚,确保管理员可以高效地管理更改,而不会中断正在进行的操作。结合 DOCA 服务功能链(SFC),DPF 可促进安全、高效的服务链(例如加速网络(CNIs)、高性能数据服务(CSIs)和防火墙功能),以处理复杂的多步骤任务。


为确保顺利部署,DPF 提供了部署前验证,确认 DPU 可以托管所需的服务,并在未满足要求时返回有意义的错误消息。此外,DPF 还提供监测和调试功能,帮助管理员实时管理和排除故障服务,从而更轻松地实现高可靠性和透明度。


通过 DPF,管理员可以获得直观的云原生工具,用于在 BlueField DPU 上配置、管理和编排服务。这种与现有 Kubernetes 工作流程的无缝集成加快了高级 BlueField 加速应用程序在电信、云和企业环境等领域的部署速度。


模块化架构有助于简化集成


DPF 采用模块化架构设计,可简化集成并为 BlueField 加速基础设施提供定制功能。这种灵活的设计基于一系列核心组件和工具,为开发者、服务提供商和企业提供了一种在云原生环境中配置和管理 BlueField DPU 的简化方法。


图 1 展示了 DPF 软件堆栈,突出显示了在主机和 BlueField DPU 上运行的 DPF 功能。它还包括用于网络、存储和安全的各种基础设施软件服务,其中一些服务通过 Kubernetes 插件(CNI 和 CSI)将向容器化工作负载公开加速 IO 接口。


图 1:NVIDIA DPF 堆栈


这些通过容器、Helm 图表和实施蓝图提供的工具和服务,为开发者提供了集成和构建 DPF 所需的一切。


DPF Operator


DPF 编排层的核心是 DPF Operator ,它可以自动执行 DPU 配置、生命周期管理和服务编排。它为 Kubernetes 用户提供了一个熟悉的云原生接口,简化了复杂的配置,并使 BlueField DPU 能够像其他集群资源一样进行部署和管理。DPF Operator 内置对自动更新和资源管理的支持,可让您在生产环境中轻松部署和维护 BlueField DPU。


DOCA for Host


DOCA for Host 软件提供了一套全面的配置工具,可简化 BlueField DPU 的部署和配置。DOCA for Host 可处理 DPU 与主机环境集成所需的固件、BIOS 和系统配置,从而确保在各种部署中实现一致且可靠的设置。


OVS-DOCA


OVS-DOCA 是 DPF 中的核心网络堆栈,为 BlueField 加速应用程序提供安全、高性能的网络连接。它在 Kubernetes 环境中提供高级网络功能和高效的流量路由,确保在不影响性能或安全性的情况下充分利用 BlueField 资源。这一基础使开发者能够轻松构建高吞吐量、延迟敏感的应用程序。


DOCA 服务


NVIDIA NGC 上托管的精选 DOCA 服务集 增强了 BlueField DPU 的功能,DPF 提供了直接在 BlueField 上获取和部署这些服务的工具,并作为 Kubernetes 集群的一部分。这些即用型服务涵盖高级监测、网络、存储、安全等,可扩展 BlueField 的功能,从而实现关键服务的快速部署。通过 NVIDIA NGC,用户可以无缝访问不断扩展的 NVIDIA 认证服务和应用程序库,这些服务和应用程序与 DPF 完全集成。


DPF 的初始版本包括 HBN、OVN-Kubernetes、Telemetry 和 BlueMan 作为第一套 DOCA 服务集,后续版本将引入对其他服务的支持,以进一步增强功能并扩展集成功能。


除了 NVIDIA 服务之外,DPF 还编排了第三方 DOCA 服务,为 BlueField 环境引入了专用功能。从网络安全解决方案到负载均衡和防火墙应用程序,第三方服务使用户能够根据其特定需求打造强大的生态系统。DPF 采用开放式模块化架构,可促进与服务供应商的合作,为用户提供更广泛的功能和灵活性。


DPF 为开发者提供所需的工具和服务 (打包在容器、Helm 图表和实施蓝图中),以轻松与 DPF 集成,并构建、定制和部署先进的 BlueField 加速软件平台。


利用 DPF 引领 DPU 加速云计算的未来


NVIDIA DOCA 平台框架(DPF)重新定义了 BlueField 加速环境的云基础设施,彻底改变了云服务的配置和管理方式。此外,NVIDIA DPF 路线图也预示着即将推出激动人心的功能。即将推出的功能将为裸机 BlueField 加速的基础设施带来零信任功能,从硬件层上保护环境。


我们鼓励开发者、电信公司和企业探索 DPF 的功能,下载蓝图,并尝试构建针对高性能和可扩展基础设施优化的应用程序。立即开始使用 DPF,引领 BlueField 加速的云基础设施的未来。


扫描以下二维码,获取相关资料:

在 Github 上查看

容器和 Helm 图表

访问 NVIDIA/doca-platform 平台 GitHub 库







请到「今天看啥」查看全文