专栏名称: 科技晶选
招商计算机与互联网团队:勤奋、专注、深入,希望带给您思想与逻辑的启发!
目录
相关文章推荐
51好读  ›  专栏  ›  科技晶选

【华西计算机】行业跟踪|英伟达GTC大会跟踪: 零部件升级是最大亮点

科技晶选  · 公众号  ·  · 2024-03-26 20:30

正文

请到「今天看啥」查看全文


核心观点



英伟达新架构Blackwell正式发布,引爆全球算力

黄仁勋表示,Blackwell 将成为世界上最强大的芯片。Blackwell 架构的B200 GPU 拥有 2080 亿个晶体管。同时带有 192GB 速度为 8Gbps 的 HBM3E 内存,AI 算力能达到 20 petaflops(FP4 精度),相比之下,上代的 H100仅为4 petaflops;而GB200超级芯片可以为大语言模型(LLM)推理负载提供 30 倍的性能提升,并将成本和能耗降低高达25倍;Blackwell架构GPU还支持新的FP6格式,这种新的格式将为AI计算提供更加灵活和高效的解决方案。


DGX SuperPOD来袭,引领万亿参数生成式AI市场

然而从整机的解决方案来说,我们可以简单将英伟达的Blackwell产品分为三类。分别是英伟达HGX B100、HGX B200、DGXGB200。而其中最重磅的代表为DGX GB200完整服务器结合了 36 颗 NVIDIA Grace CPU 和 72 块 Blackwell GPU。这些超级芯片通过第五代 NVLink 连接成一台超级计算机,可处理多达27万亿个AI LLM参数模型。值得关注的一点是,GB200 NVL 72内部互联采取的是铜互连形式。从整机系统构造来说,英伟达发布全新的Blackwell架构DGX SuperPOD,简而言之,它将八个GB200 NVL72合为一体,总共有288个CPU、576个GPU、240TB内存和11.5 exaflops的FP4计算能力。 黄仁勋更是在GTC上直言“DGX Superpod就是AI的革命工厂!”

英伟达发布多款软件服务,巩固其AI生态
1、英伟达推 出生成式 AI 微服务,供开发者在 CUDA GPU 系统中创建部署生成式AI 助手,NIM可大幅缩短其部署时间;2、英伟达推出Project GROOT人形机器人项目,同时推出机器人大脑芯片Jstson Thor;3、英伟达推出Drive Thor芯片,赋能智能驾驶,可提供每秒 2000 万亿次浮点运算性能;4、发布多款技术,助力全球生成式AI,其中包括Earth-2 API、量子计算平台、数字人技术等。


投资建议

我们判断以英伟达为首的硬件公司架构持续升级, 全球加速计算呈现持续升级的状态,万物AI的时代有望加速到来。
受益标的:
1、算力租赁: 润泽科技、润建股份、亚康股份、云赛智联、鸿博股份、首都在线等;

2、国产链:高新发展、中科曙光、恒为科技、神州数码、泰嘉股份、海光信息、开普云;

3、NV链:工业富联。


风险提示

1、政策不及预期的风险; 2、AI伦理风险;3、技术升级不及预期的风险;4、中美贸易摩擦升级的风险。

正文




1.英伟达引领全球计算架构持续升级

英伟达新架构Blackwell正式发布: 根据机器之心3月19日消息,英伟达GTC大会正式召开,在全球的科技公司争抢H100的背景下,新一代系列产品Blackwell芯片袭来,从此以后,在数万亿参数上构建和运行实时生成式 AI 大型语言模型的成本和能耗降低到此前的 1/25。



相较于上一代 Hopper 架构,其性能怪兽正式发布:
1、制成情况: 黄仁勋表示,Blackwell 将成为世界上最强大的芯片。
Blackwell 架构的 B200 GPU 拥有 2080 亿个晶体管,采用定制的、双 reticle 的 台积电 4NP(4N 工艺的改进版本)制程工艺,两块小芯片之间的互联速度高达
10TBps,可以大幅度提高处理能。
2、带宽及存储情况: 它还带有 192GB 速度为 8Gbps 的 HBM3E 内存,AI 算
力能达到 20 petaflops(FP4 精度),相比之下,上代的 H100 仅为 4 petaflops。
25 倍。
3、算力及能耗情况: 相较于 H100 Tensor Core GPU,GB200 超级芯片可以
为大语言模型(LLM)推理负载提供 30 倍的性能提升,并将成本和能耗降低高达
4、算力精度情况: Blackwell 架构 GPU 还支持新的 FP6 格式,这是一种介于
FP4 和 FP8 两者之间的解决方案。这种新的格式将为 AI 计算提供更加灵活和高效
的解决方案,从而推动 AI 技术的发展。



具体来讲,此次的新产品系列分为两款: 分别是B200和GB200产品系列,B100不是新发布的主角,仅在H GX B100板卡中被提及。其中 B200 GPU 通过 2080 亿个晶体管提供高达 20 petaflops 的 FP4 吞吐量。而 GB200 GPU 通过 900GB / 秒的超低功耗芯片到芯片连接,将两个 B200 GPU 连接到 1 个 Grace CPU 上。



然而从整机的解决方案来说,我们可以简单将英伟达的Blackwell产品分为三类: 分别是英伟达HGX B100、HGX B200、DGXGB200

其中HGX B100和HGXB200 是配备了B100 GPU和B200 GPU的单基板,其参数性能如下:其中根据知乎,每个B100功耗为700W,每个B200功耗为1000W。



而其中最重磅的代表为 DGX GB200 完整服务器: 基于 Blackwell 的 AI 算力 将以名为 DGX GB200 的完整服务器形态提供给用户,结合了 36 颗 NVIDIA Grace CPU 和 72 块 Blackwell GPU。这些超级芯片通过第五代 NVLink 连接成一台超级 计算机(后文简称GB200 NVL 72)。与相同数量的 72 个 H100 相比,GB200 NVL72 的 性能绝对是逆天的存在,大模型推理性能可以提升 30 倍,并且成本和能耗只有前者的 1/25。


这是一个全机架解决方案,有 18 个 1U 服务器。其提供的 FP8 性能为 720 petaflops,FP4计算性能为1440 petaflops,可处理多达27万亿个AI LLM参数 模型。每台服务器里带有两个 GB200 Grace Blackwell Superchip,这些计算节点 带有 1.7TB 的 HBM3E 内存、32TB/s 的内存带宽,并且全部采用液冷 MGX 封装。 然而由于功耗过大,需要采用液冷。



值得关注的一点是,GB200 NVL 72 采取的是铜互连形式: 根据腾讯网的消息, 英伟达GB200 NVL72互联模式通过NV Switch实现,其中GPU与NVSwitch采用铜 互联形式(高速背板连接器),外部则使用光互联形式(光模块-I/O 连接器)。值 得注意的是,其内部使用的电缆长度累计接近 2 英里,共有 5000 条独立铜缆。在 GTC 大会上,黄仁勋对铜连接方案进行了特别讲解,并强调其在成本降低和性能展 示上的优势。
此外,从整机系统构造来说,英伟达发布全新的 Blackwell 架构 DGX SuperPOD,适用于万亿参数级的生成式 AI 超级计算: 基于先进的 NVIDIA 网络、 NVIDIA 全栈 AI 软件和存储技术,可将集群中 Grace Blackwell 超级芯片的数量 扩展至数万个,通过 NVIDIA NVLink 可将多达 576 块 Blackwell GPU 连成一个 整体,由 NVIDIA 系统专家加速即时 AI 基础设施的部署。全新 DGX SuperPOD 采用新型高效液冷机架级扩展架构,基于 NVIDIA DGX TM GB200 系统构建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超级计算性能和 240 TB 的快速显存,且可通过增加机架来扩展性能。简而言之,它将八个 GB200 NVL72 合为一体,总共 有 288 个 CPU、576 个 GPU、240TB 内存和 11.5 exaflops 的 FP4 计算能力。黄仁勋更是在 GTC 上直言“DGX Superpod 就是 AI 的革命工厂!”



英伟达持续巩固其 AI 霸主地位,相关产业链公司也将提供各自解决方案: 我们判断,英伟达通过发布 Blackwell 架构 GPU,再次巩固了自身在人工智能市场 的主导地位,开创了 AI 计算的新时代。根据新浪新闻消息,Dell、HPE、联想、 Supermicro、Aivres、华擎、华硕、Eviden、技嘉、英业达、和硕、云达、纬创、 Wiwynn 和 ZT Systems 等 OEM 厂商也将在未来提供各自的解决方案。

2.英伟达发布多款软件服务,巩固其 AI 生态

2.1 英伟达推出生成式 AI 微服务

英伟达推出生成式 AI 微服务,供开发者在 CUDA GPU 系统中创建部署生成式 AI 助手: 英伟达在 GTC 大会上推出数十项企业级生成式 AI 微服务,企业可以 利用这些微服务在自己的平台上创建和部署定制应用,同时保留对知识产权的完 整所有权和控制权。这些云原生微服务目录在 NVIDIA CUDA ® 平台上开发,其中包括 NVIDIA NIM TM 微服务,可适用于 NVIDIA 及合作伙伴生态系统中 20 多个热门 的 AI 模型进行推理优化。



NIM的优势在于 :

1、大幅缩短部署时间: NIM 微服务提供基于 NVIDIA 推理软件的预构建容器,包括 Triton 推理服务器 和 TensorRT -LLM,使开发者能够将部署时间从几周缩短至几分钟。

2、标准化API,为生成式AI提供灵活性 :语言、语音和药物发现等领域提供行业标API,使开发者能够使用安全托管在自己的基础设施中的专有数据,来快速构建 AI 应用。这些应用可按需扩展,从而为在 NVIDIA 加速计算平台上运行生产级生成式 AI 提供灵活性和性能。

3、赋能企业平台: NVIDIA 生态系统中的数据、基础设施和计算平台提供商也在使用NVIDIA 微服务,为企业带来生成式 AI。包括 Box、Cloudera、Cohesity、Datastax、Dropbox 和NetApp 在内的顶级数据平台提供商正在使用 NVIDIA 微服务,帮助客户优化 RAG 管道,并将专有数据集成到生成式 AI 应用中。Snowflake 正在使用 NeMo Retriever,充分利用企业数据来构建AI 应用。



2.2 英伟达推出人形机器人项目,三大平台共同发力

英伟达推出 Project GROOT 人形机器人项目: 人型机器人基础模型 。英伟达 表示,基于 GR00T 人型机器人基础模型,可以实现通过语言、视频和人类演示,来 理解自然语言,模仿人类动作,进而快速学习协调性、灵活性以及其他的技能,进而能够融入现实世界并与人类进行互动。
Jstson Thor 机器人大脑计算芯片同步推出: 该项目还包括基于 NVIDIA Thor SoC 系统的开发套件 Jetson Thor,内置了下一代 Blackwell GPU(此前英伟达也 推出个针对汽车的 DRIVE Thor 套件),带宽达到 100GB/s,AI 计算性能达到 800TFLOPs;该芯片能够执行复杂的任务,并借助 Transformer 引擎处理多元的传感器数据。



英伟达目前正在构建包括NVIDIA IAI、Omniverse、ISAAC三大平台,三大平台均与机器人产业高度关联。 其中 NVIDIA IAI 搭载 DGX 系列产品,用于模拟物理世界, Omnivese 搭载 RTX OVX 系列产品,用于驱动数字孪生的计算系统, ISAAC 搭载 AGX 系列,用于驱动人工智能机器人

三大平台相互作用: 英伟达Omniverse构建的ISAAC Lab也进行了同步更新,允许开发者利用该平台模拟机器人学习技能、与物理世界模拟互动,支持数千个机器人同步训练与模拟。同时,ISAAC Lab还整合了用于辅助提升机械臂的灵敏度与精确度的加速库平台ISAAC MANIPULATOR,以及用于提升服务机器人感知能力的ISAAC PERCEPTOR软件库。

2.3 Blackwell助力NVIDIA DRIVE Thor平台

DRIVE Thor有望取代DRIVE Orin:同样在GTC大会上,NVIDIA 创始人兼首席执行官黄仁勋公布了一款令人惊艳的超级芯片——DRIVE Thor。 他在演讲中透露,集高级辅助驾驶技术和车载信息娱乐于一体的 NVIDIA DRIVE Thor 将搭载为 Transformer 和生成式 AI 工作负载而打造的全新 NVIDIA Blackwell 架构。这款车规级系统级芯片 (SoC) 基于最新 CPU 和 GPU 打造,可提供每秒 2000 万亿次浮点运算性能,在大幅度提升性能的同时降低整体系统的运行成本。DRIVE Thor 将逐步接替 DRIVE Orin,以最新的计算技术,加速智能汽车技术在行业内的部署,赋能汽车制造商的 2025 年车型。

DRIVE Thor 汽车制造商可以在单个系统级芯片上高效整合数字仪表盘、信息娱乐、泊车、辅助驾驶等多种功能,从而极大地提高开发效率和软件更新迭代的速度。



总而言之 Drive Thor的优势分为3点:

1、 计算速度块、准确性高: 基于Blackwell超强计算功能,DRIVE Thor 在深度神经网络(DNN) 准确性方面也实现了惊人的飞跃。

2、 一芯多用、多域计算: DRIVE Thor能够进行多域计算,这意味着它可以将自动驾驶、车载信息娱乐等功能划分为不同的任务区间,同时运行,互不干扰。多计算域隔离能力,可支持时间关键型的进程不间断同时运行。

3、 芯片互联技术助力数据高速共享: 通过使用Drive Thor芯片,用户可以单独使用 DRIVE Thor 芯片,也可以通过最新的 NVLink-C2C 芯片互连技术同时连接两个 Thor芯片,使两个芯片作为单一操作系统的统一平台。NVLink-C2C 的优势在于它能够以最小的开销在超高速数据传输链路中共享、调度和分发任务。



多家行业制造商分享Drive Thor的集成: 全球最大的电动汽车制造商比亚迪正在扩大与NVIDIA 的长期协作的规模,并通过 DRIVE Thor 构建下一代电动车型。广汽埃安旗下的高端豪华品牌昊铂宣布,其将于 2025 年量产的全新车型将采用 DRIVE Thor 实现 L4 级自动驾驶。小鹏汽车将把 DRIVE Thor 用作其下一代电动汽车的 “AI 大脑”。除上述电动汽车制造商外,理想汽车和极氪在大会前就已表示,将基于 DRIVE Thor 构建其未来车辆的产品路线图。

多家卡车、自动驾驶出租车和无人配送车也将支持 DRIVE Thor。Nuro 选择 DRIVE Thor 为其 Nuro Driver提供助力。Plus 表示,其 L4 级解决方案 SuperDrive 的后续几代将依托 DRIVE Thor 运行。Waabi 正在利用 DRIVE Thor 向市场推出首个生成式 AI 赋能的自动驾驶卡车解决方案。文远知行正在与联想车计算合作,一同基于 DRIVE Thor 开发商用 L4 级自动驾驶解决方案。

2.4 英伟达发布多款技术,助力全球生成式AI

1、气候方面: 英伟达推出 Earth-2 API,其名为气候数字孪生云平台,其目的是应对极端天气。NVIDIA DGX Cloud 上的全新 Earth-2 云 API 能够支持所有用户创建基于 AI 的仿真,从而加快实现交互式、高分辨率模拟的速度,模拟范围从全球大气和局部云层到台风和湍流。

同时提供名为CorrDiff 的全新 NVIDIA 生成式 AI 模型。 该模型基于领先的扩散模型技术,能将当前数值模拟的分辨率提升 12.5 倍,相比传统方法,速度和能效分别提升了 1000 倍和 3000 倍。Corr Diff 是一个开创性的生成式 AI 模型,能够实现超分辨率,生成利益相关方感兴趣的新指标,并且可以从高分辨率数据集中学习小范围局部天气的物理特性。



2、量子技术方面: 英伟达量子云基于英伟达开源 CUDA-Q 量子计算平台。NVIDIA旨在帮助研究人员和开发人员在化学、生物学、材料科学等关键科学领域的量子计算研究中取得突破。

根据英伟达的阐述,部署量子处理器 (QPU) 的公司有四分之三都在使用该平台。 其作为一项微服务,首次支持用户在云端构建并测试新的量子算法和应用,包括支持量子 - 经典混合算法编程的功能强大的模拟器和工具等。量子云自身具有强大功能和集成第三方软件的能力能够加快科学探索。

3、NVIDIA 数字人技术让 AI 角色栩栩如生: NVIDIA 开发者与图形性能技 术部门副总裁John Spitzer 表示:“NVIDIA 为开发者提供世界级的 AI 驱动的技术,用于创建数字人。这些技术支持复杂的动画和语音对话,增强数字互动真实感。”此次GTC大会上,英伟达宣布使用英伟达数字人技术为游戏、医疗、金融服务等应用创建动态角色,技术套件包括: 英伟达ACE、英伟达NeMo、英伟达RTX。

英伟达数字人技术赋能游戏等多个领域: 顶级游戏和数字人开发者正在开创性地利用 ACE 和生成式 AI 技术来改变游戏和应用中玩家与 NPC 之间的互动。采用 ACE 的开发者和平台包括Convai、Cyber Agent、Data Monsters、Deloitte、HippocraticAI、IGOODI、Inworld AI、Media.Monks、米哈游、网易游戏、完美世界游戏、Openstream、掌趣科技、Quantiphi、Rakuten Securities、Slalom、SoftServe、腾讯、Top Health Tech、Ubisoft、UneeQ 和 Unions Avatars。



投资建议



我们判断以英伟达为首的硬件公司架构持续升级, 全球加速计算呈现持续升级的状态,万物 AI 的时代有望加速到来。

受益标的:

1、算力租赁: 润泽科技、润建股份、亚康股份、云赛智联、鸿博股份、首都在线等;

2、国产链:高新发展、中科曙光、恒为科技、神州数码、泰嘉股份、海光信息、开普云;

3、NV链:工业富联。


风险提示



1、政策不及预期的风险;

2、AI伦理风险;

3、技术升级不及预期的风险;

4、中美贸易摩擦升级的风险。


相关报告



1、 【华西计算机】行业跟踪|Kimi改变AI,迎国内AIG时代
2、 【华西计算机】行业跟踪 | NVIDIA GTC盛宴,产业链全面启动
3 【华西计算机】行业跟踪|聚焦央国企和战略性新兴产业发展
4、 【华西计算机】行业跟踪|海外AI高景气度,A股科技静待花开
5、 【华西计算机】行业跟踪|科技拐点已至,算力打响反击战
6、【华西计算机】行业跟踪|CES 2024展会震撼来袭,AI成为绝对关键词
7、【华西计算机】行业点评|英伟达持续加码AI,华为领先演绎国产崛起
8、【华西计算机】行业跟踪|训推一体,昇腾引领新世代
9、 【华西计算机】行业跟踪|昇腾量价齐升,华为引爆国产算力
10、【华西计算机】行业跟踪 | 美计划加紧对华芯片出口,华为领衔演绎国产崛起
11、【华西计算机】ChatGPT | 行业跟踪:国产华为迎风起,轻舟已过万重山
12、【华西计算机】ChatGPT | 行业跟踪:算力租赁空间测算

相关声明



►   分析师承诺
作者具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,保证报告所采用的数据均来自合规渠道,分析逻辑基于作者的职业理解,通过合理判断并得出结论,力求客观、公正,结论不受任何第三方的授意、影响,特此声明。

►   评级说明

►   华西证券免责声明
华西证券股份有限公司(以下简称“本公司”)具备证券投资咨询业务资格。本报告仅供本公司签约客户使用。本公司不会因接收人收到或者经由其他渠道转发收到本报告而直接视其为本公司客户。
本报告基于本公司研究所及其研究人员认为的已经公开的资料或者研究人员的实地调研资料,但本公司对该等信息的准确性、完整性或可靠性不作任何保证。本报告所载资料、意见以及推测仅于本报告发布当日的判断,且这种判断受到研究方法、研究依据等多方面的制约。在不同时期,本公司可发出与本报告所载资料、意见及预测不一致的报告。本公司不保证本报告所含信息始终保持在最新状态。同时,本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者需自行关注相应更新或修改。
在任何情况下,本报告仅提供给签约客户参考使用,任何信息或所表述的意见绝不构成对任何人的投资建议。市场有风险,投资需谨慎。投资者不应将本报告视为做出投资决策的惟一参考因素,亦不应认为本报告可以取代自己的判断。在任何情况下,本报告均未考虑到个别客户的特殊投资目标、财务状况或需求,不能作为客户进行客户买卖、认购证券或者其他金融工具的保证或邀请。在任何情况下,本公司、本公司员工或者其他关联方均不承诺投资者一定获利,不与投资者分享投资收益,也不对任何人因使用本报告而导致的任何可能损失负有任何责任。投资者因使用本公司研究报告做出的任何投资决策均是独立行为,与本公司、本公司员工及其他关联方无关。
本公司建立起信息隔离墙制度、跨墙制度来规范管理跨部门、跨关联机构之间的信息流动。务请投资者注意,在法律许可的前提下,本公司及其所属关联机构可能会持有报告中提到的公司所发行的证券或期权并进行证券或期权交易,也可能为这些公司提供或者争取提供投资银行、财务顾问或者金融产品等相关服务。在法律许可的前提下,本公司的董事、高级职员或员工可能担任本报告所提到的公司的董事。本公司及其所属关联机构或个人可能在本报告公开发布之前已经使用或了解其中的信息。
所有报告版权均归本公司所有。未经本公司事先书面授权,任何机构或个人不得以任何形式复制、转发或公开传播本报告的全部或部分内容,如需引用、刊发或转载本报告,需注明出处为华西证券研究所,且不得对本报告进行任何有悖原意的引用、删节和修改。



团队成员





注: 文中报告节选自华西证券研究所已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。
分析师:刘泽晶
分析师执业编号:S1120520020002
证券研究报告:《【华西计算机】行业跟踪| 英伟达GTC大会跟踪: 零部件升级是最大亮点
报告发布日期:2024年3月26日


重要提示:
《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过本订阅号发布的观点和信息仅面向华西证券的专业投资机构客户。若您并非华西证券客户中的专业投资机构客户,为控制风险,请取消订阅、接收或使用本订阅号中的任何信息。因本订阅号受限于访问权限设置,若给您造成不便,敬请谅解。市场有风险,投资需谨慎。


法律声明:
本订阅号为华西证券计算机团队设立及运营。本订阅号不是华西证券研究报告的发布平台。本订阅号所载的信息仅面向华西证券的专业投资机构客户,仅供在新媒体背景下研究观点的及时交流。本订阅号所载的信息均摘编自华西证券研究所已经发布的研究报告或者是对已发布报告的后续解读,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。
在任何情况下,本订阅号所推送信息或所表述的意见并不构成对任何人的投资建议。华西证券及华西证券研究所也不对任何人因为使用本订阅号信息所引致的任何损失负任何责任。
本订阅号及其推送内容的版权归华西证券所有,华西证券对本订阅号及推送内容保留一切法律权利。未经华西证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。










请到「今天看啥」查看全文