专栏名称: 阿尔法公社
重度帮助创业者的天使投资基金
目录
相关文章推荐
一条漫画  ·  要多少钱?你才能离我儿子远点? ·  16 小时前  
一条漫画  ·  要多少钱?你才能离我儿子远点? ·  昨天  
51好读  ›  专栏  ›  阿尔法公社

英伟达掌握AI时代“摩尔定律”,会加大中美AI公司差距么?|投资人说

阿尔法公社  · 公众号  ·  · 2024-03-20 16:56

正文


当地时间3月18日,英伟达在2024 GTC大会上发布了多款芯片、软件产品。

创始人黄仁勋表示:“通用计算已经失去动力,现在我们需要更大的AI模型,更大的GPU,需要将更多GPU堆叠在一起。这不是为了降低成本,而是为了扩大规模。”


作为GTC大会的核心,英伟达发布了Blackwell GPU,它分为B200和GB200系列,后者集成了1个Grace CPU和2个B200 GPU。

NV IDIA GB200 NVL72大型机架系统 使用GB200芯片,搭配NVIDIA BlueField-3数据处理单元、第五代NVLink互联等技术,对比相同数量H100 Tensor核心的系统,在推理上有高达30倍的性能提升,并将成本和能耗降低了25倍。

在AI应用方面,英伟达推出Project GR00T机器人基础模型及Isaac机器人平台的重要更新。


英伟达展示其AI芯片的算力在过去8年里实现了1000倍的增长,这代表AI时代的摩尔定律(算力快速增长,算力成本快速下降)正在形成。

如果您对人工智能的新浪潮有兴趣,有见解,有创业意愿,欢迎扫码添加“阿尔法小助理”,备注您的“姓名+职位”,与我们深度连接。

实现10万亿参数AI模型的训练和实时推理


在GTC大会上,英伟达不仅发布了算力方面的更新,也介绍了其在应用方面的进展。


1.更强的训练算力,更快、成本更低的推理


Blackwell不仅是一块芯片,也是一个平台。英伟达的目标是让规模达到10万亿参数的AI模型可以轻松训练和实时推理。


它最小的单元是B200,内置2080亿个晶体管,使用定制的4NP TSMC工艺制造,采用Chiplet架构,两个GPU dies通过每秒10TB的芯片到芯片链接连接成一个统一的GPU。

GB200超级芯片则将两个B200 Tensor核心GPU通过每秒900GB的超低功耗NVLink芯片到芯片互连技术与NVIDIA Grace CPU连接。


再往上一层,则是NVIDIA GB200 NVL72,这是一个多节点、液冷的机架系统,它内含36个Grace Blackwell超级芯片,包括72个Blackwell GPU和36个Grace CPU,在NVIDIA BlueField-3数据处理单元的支持下,它能实现云网络加速、可组合存储、零信任安全性以及在超大规模AI云中的GPU计算弹性。

这个系统可以被作为"单个GPU"工作,这时它能提供1.4 exaflops的AI性能和30TB的快速内存。据称,一个GB200 NVL72就最高支持27万亿参数的模型。

最大规模的系统则是DGX SuperPOD,NVIDIA GB200 NVL72是DGX SuperPOD的构建单元,这些系统通过NVIDIA Quantum InfiniBand网络连接,可扩展到数万个GB200超级芯片。

此外,NVIDIA还提供HGX B200服务器板,通过NVLink将八个B200 GPU连接起来,支持基于x86的生成式AI平台。HGX B200通过NVIDIA Quantum-2 InfiniBand和Spectrum-X以太网网络平台支持高达400Gb/s的网络速度。

GB200还将在NVIDIA DGX云上提供给客户,这是一个与 AWS、谷歌云和甲骨文云等 领先的云服务提供商共同设计的AI平台,为企业开发者提供专用访问权限,以构建和部署先进的生成式AI模型所需的基础设施和软件。

英伟达以实际的模型训练为例,训练一个 GPT-MoE-1.8T模型(疑似指GPT-4), 此前 使 用Hopper系列芯片需要 8000 GPU训练 90 天, 现在使用GB200训练同样的模型,只需要2000块GPU,能耗也只有之前的四分之一。


由GB200组成的系统,相比相同数量的NVIDIA H100 Tensor核心GPU组成的系统,推理性能提升30倍,成本和能耗降低25倍。


在背后支持这些AI芯片和AI算力系统的是一系列新技术,包括提升性能的第二代Transformer引擎(支持双倍的计算和模型大小)、第五代NVLink(提供了每个GPU1.8TB/s的双向吞吐量);提升可靠性的RAS引擎(使AI算力系统能够连续运行数周甚至数月);以及安全AI(保护AI模型和客户数据)等。

在软件方面,Blackwell产品组合得到NVIDIA AI Enterprise的支持,这是一个端到端的企业级AI操作系统。NVIDIA AI Enterprise包括NVIDIA NIM推理微服务,以及企业可以在NVIDIA加速的云、数据中心和工作站上部署的AI框架、库和工具。NIM推理微服务可对来自英伟达及合作伙伴的数十个AI模型进行优化推理。






请到「今天看啥」查看全文