事件:
英伟达CEO黄仁勋于1月7日在CES发表主题演讲,介绍RTX消费级显卡新品,以及AI技术在机器人、汽车、工业和医疗等前沿领域的应用。综合演讲及材料信息,总结要点如下:
评论:
1、RTX50系列采用Blackwell架构,NVL72系统正被众多厂商生产中。
1)RTX50系列 :发布RTX50系列Blackwell架构GPU,包括RTX 5090/5080/5070Ti/5070,对应算力分别为3400/1800/1400/1000 AI TOPS,其中RTX5070具有4090相同的性能,四个产品售价分别为1999/999/749/549美元。RTX50系列芯片将于一月份上市,搭载的电脑产品将于三月份上市;2)Blackwell GPU :Blackwell已全面投产,所有主要云服务提供商均已建立系统,提供约200种不同型号和配置,来自约15家硬件制造商。GB200 NVLink72系统: 重约1.5吨,有60万个零部件,功耗120KW,背部线缆连接所有GPUs,总共有两英里的铜缆,5000根线,由全世界45家工厂生产。
2、Agent AI将数字化劳动力带入各行业,Comos构建Pysical AI机器人系统。
1)Agent AI: 英伟达通过Agentic AI、Llama Nemotron模型家族、Nemo框架以及WSL2等技术,构建了覆盖企业应用、个人PC、工业自动化和知识工作者支持的全方位AI生态系统。同时,英伟达优化了Windows PC平台,将其从传统计算工具转型为强大的AI助手,通过WSL2与Nim微服务为开发者和创作者提供强大支持,推动AI技术从云端扩展到个人设备,提升生产力并实现广泛的数字化转型;2)Cosmos: 可结合Omniverse进行多重宇宙模拟,生成物理世界的逼真场景,助力机器人后训练优化,并推动数字孪生技术的发展。Nvidia与Keon等合作,通过数字孪生技术优化工业自动化,尤其在仓储和配送领域,帮助提升运营效率,这一战略为制造业提供了完整的“三计算机”解决方案(DGX用于训练、AGX用于部署、数字孪生用于优化),推动物理AI在工业和机器人领域的实际应用,重新定义工业自治和全球制造业的数字化转型。
3、英伟达发力下一代智驾汽车和机器人业务,与联发科开发GB10已进入生产。
自动驾驶技术已进入实际应用阶段,Nvidia通过三大核心计算平台(AI训练平台、模拟系统和合成数据生成系统)、Omniverse平台、Cosmos平台以及新一代车载处理器Thor,推动自动驾驶感知、决策和控制系统的发展。1)合作厂商 :Nvidia几乎与全球所有主要汽车制造商合作,包括Waymo、Zoox、特斯拉及其数据中心,丰田宣布与Nvidia合作,共同开发下一代自动驾驶汽车,Aurora宣布将使用Nvidia的技术开发自动驾驶卡车;2)Thor处理器 :下一代汽车智驾芯片Thor,已全面投产,计算能力是上一代汽车硬件的20倍,同时Drive OS已成为第一个获得认证的可编程AI计算机功能安全软件,达到了最高的汽车安全标准ASIL-D。Nvidia在汽车领域业务已达到40亿美元,并预计在今年增长至50亿美元;3)Nvidia Isaac Groot平台助力人形机器人训练,构建模拟学习仿真工作流程;4)GB10: 作为最小的Grace Blackwell芯片,与联发科合作开发,推出了小型超级计算机,现已进入生产阶段。
风险提示:竞争加剧风险、贸易摩擦风险、行业景气度变化风险、宏观经济及政策风险。
附录:英伟达CES 2025主题演讲纪要
时 间:2025年1月07日
主讲人:英伟达CEO黄仁勋
1、 RTX50:发布RTX50系列Blackwell架构GPU及搭载笔记本,性能较上一代提高三倍
2012年Alex、Jeff等发明了Cuda,用于运行ALEXNET,接下来,AI以惊人的速度发展,开始于Perception AI,能够理解图片、文字、语言,对于生成式AI,我们能够生成图片、文字、语言,现在是Agent AI,AI可以感知、推理、计划、行动,到下一阶段,Physical AI。2018年发生了一件很重要的事,谷歌Transformer发布,AI发展正式加速,Tranformer完全改变了人工智能的发展蓝图,改变了算力的发展蓝图,AI不仅仅是一款新应用与商业机会,由Transformer驱动的AI更是改变了计算的方式。现在算力每年都在革新,从代码指令在CPU上运行制作软件到现在,我们有机器学习,创造优化神经网络,在GPU上运行并产生人工智能,每一个技术层都完全改变。
现在,我们宣布下一代RTX Blackwell系列芯片。RTX50系列,Blackwell架构,拥有920亿颗晶体管,4000AI Tops,比上一代Ada性能高三倍,380RT TFLOPS,可以计算生产最精美的图片,125个Shader Teraflops,还有一个性能相当的并发着色器以及一个整数单元,一个用于浮点计算,一个用于整数计算,1.8TB/s的内存带宽,是上一代的两倍。它现在能够将AI工作负载与计算机图形工作负载混合处理,这一代技术的惊人之处之一是可编程着色器,它现在也能够处理神经网络,因此着色器可以承载这些神经网络。由此,我们发明了Neuro texture compression和neural material,通过这些技术,你可以获得那些只有通过它们才能实现的令人惊艳的精美图像,因为我们使用AI学习这些texture,学习压缩算法,并得到完美的结果。它有两个风扇,电压调节设计是最先进的。
这是RTX4090,现在RTX5070具有4090相同的性能,只需要549刀。
我们把强大性能的GPU放在笔记本上,这是RTX5070笔记本,具有4090的性能。
RTX50系列GPUs,GeForce把AI带向世界,现在AI驱动GeForce革新。
2、Blackwell GPU:45家工厂生产NVL36、72,推出Grace Blackwell NVLink72拥有72颗Blackwell GPU
关于AI:scaling law是一个有力的模型,也是实证规则,scaling law说明了有越多的训练数据,就有越大的模型,需要越多的算力,更高效及能力更强的模型也会产生,scaling law仍在继续,我们转向互联网所产生的数据,接下来几年人们会产生更多的数据,比从人类诞生之初到现在产生的还要多,而且是多模态的,视频、图像、语音,所有这些数据都可以用来训练AI的基础知识,现在另外两条scaling law产生了,第二个scaling law是后训练scaling law,使用科技去学习人类反馈,AI生产回答,人类基于回答产生反馈,AI根据反馈进行强化,这更有利于它的数学推理能力,我们也有AI强化学习技术,自动生产数据自我学习,这是后训练,后训练需要巨大的算力;第三条scaling law,test time scaling,AI能够使用不同的资源分配,去决定用多少算力去生成答案,推理是一种思考方式,长推理是一种思考方式,test time scaling被证明是有效的,我们能够看到技术发展的过程,从ChatGPTo1到03,所有的这些系统都是一步一步发展。Scaling law驱动巨大的算力需求,驱动先进芯片的需求。
Blackwell是一整套产品,每个云服务提供商都用下面的这些系统并正在运行,我们有大约15个电脑生产商,使用不同的方案,液冷、风冷,NVL36、NVL72,200多不同SKUs,我们能够将这些不同的系统用于全世界的数据中心,这些系统正在被45家工厂生产。
这是GB200,NVLink72系统,1.5吨,60万个组成部分,功耗120KW,背部的一根线连接所有GPUs,两英里的铜缆,5000根线,由全世界45家工厂生产。我们流片、检测,然后拆解成零部件出货至各个数据中心,再重新组装。Blackwell计算性能提升巨大,提升了每瓦性能,我们降低了训练成本。
这里有72颗Blackwell GPU,144颗die,一颗芯片算力是1.4 exaflops,内存14TB,带宽1.2PB/s,整个世界的网络拥堵都能通过这些芯片处理,它有130万亿颗晶体管,2592颗CPU核。
四块白色部分为Blackwell芯片,中间的黄色部分为连接芯片,中间横向部分为NVLink spine,上下方黑色部分为HBMs。
3、Agent AI:数字化劳动力的未来与企业转型新引擎
另一件重要的事情是Agentic AI,它是一个test time scaling的例子,是一个由模型组成的人工智能系统,其中一部分是理解,与用户互动,其中一些可能是检索信息,从存储中检索信息,像检索增强生成(RAG)这样的语义人工智能系统,也许它会连接到互联网,也许它正在研究一个PDF文件,所以它可能会使用工具、计算器,也可能使用生成式人工智能去生成图表等,它正在逐步处理问题,给它一个问题,它会将其逐步分解,然后通过所有这些不同的模型进行迭代。
为了帮助构建Agentic AI,我们的市场目标不是企业用户,而是与软件开发者与IT生态系统融入我们的科技,去产生更多可能性,像CUDA libraries,我们要做AIlibraries,可以把所有复杂的软件(Tensor RTML、Triton等)集成,用模型去理解,你可以使用这些融入自己的软件包,制作AI Agent运行cadence等,用户可以用AIAgent去运行任何他想运行的软件。
下一层是NVDIA Nemo,Nemo本质上是一个数字化员工入职和培训评估系统,在未来,这些AI Agent本质上是与你的员工并肩工作的数字劳动力,将这些AI Agent引入公司的方式就是让它们入职,就像让员工入职一样,我们有不同的库来帮助这些AI Agent,根据公司的类型进行培训,所以你会给它们展示工作成果应该是什么样的示例,它们会尝试生成,然后你再给予反馈,这是整个数字员工的pipeline。
在很多方面,未来每家公司的信息技术部门都将成为AI Agent的HR。当今他们管理和维护来自信息技术行业的一堆软件,未来,他们将维护、培育和改进一大堆digitalagents,并将它们提供给公司使用,所以信息技术部门将变得有点像AI Agent HR。
此外,英伟达发布了基于Llama的全新模型家族,采用Nvidia的Llama Nemo Tron语言基础模型。这套模型的核心是Llama3.1,自发布以来便成为行业级产品,累计下载量已达到约3.5亿次,并衍生出约6万种不同的模型。Llama 3.1的出现,成为驱动企业与行业大规模涉足人工智能技术的重要推动力。
为了更好地服务企业应用场景,英伟达对Llama模型进行了深度优化和精细微调,推出了Llama Nemotron开放模型套件。这一套件包含多种类型的模型,其中一些小型模型响应速度极快,适合需要即时处理的场景;而Super Llama Nemo tronsupers等模型,不仅可作为主流应用模型,还可充当教师模型,或者作为奖励模型、评估模型、判断模型,帮助其他模型生成答案、提供反馈,并通过学习进一步提升模型性能。目前,这些模型已全面上线,开发者可随时访问和使用。
同时,Llama Nemotron套件以卓越的性能在聊天、指令处理和检索等领域名列前茅,满足全球范围内对AI代理多样化功能的需求。这不仅是技术进步的体现,更标志着英伟达在推动全球AI技术应用方面的又一重大突破。英伟达还宣布与多个行业领军企业达成深度合作,共同推动AI技术的广泛应用。例如,与Service Now、SAP和Siemens的合作聚焦于工业AI的发展;与Cadence的合作提升芯片设计效率;而与Perplexity的合作,则在搜索领域实现了颠覆性创新。在软件开发领域,英伟达认为未来每位软件工程师都将借助AI助手来提升生产效率和代码质量。Codium等AI工具将成为不可或缺的开发助手,进一步增强全球约3000万软件工程师的开发效率。
同时,Llama Nemotron套件以卓越的性能在聊天、指令处理和检索等领域名列前茅,满足全球范围内对AI代理多样化功能的需求。这不仅是技术进步的体现,更标志着英伟达在推动全球AI技术应用方面的又一重大突破。英伟达还宣布与多个行业领军企业达成深度合作,共同推动AI技术的广泛应用。例如,与ServiceNow、SAP和Siemens的合作聚焦于工业AI的发展;与Cadence的合作提升芯片设计效率;而与Perplexity的合作,则在搜索领域实现了颠覆性创新。在软件开发领域,英伟达认为未来每位软件工程师都将借助AI助手来提升生产效率和代码质量。Codium等AI工具将成为不可或缺的开发助手,进一步增强全球约3000万软件工程师的开发效率。
在知识工作者支持领域,英伟达认为,全球约有10亿知识工作者将从AI代理的技术革命中受益。AI代理被视为下一个机器人产业的关键驱动力,预计这一市场有望成为万亿美元级别的商业机会,为企业和工作者创造前所未有的效率和价值。为进一步推动技术应用,英伟达还展示了与合作伙伴共同开发的AI蓝图,涵盖工业自动化、软件开发和信息检索等领域。这些蓝图通过开放的工具链和模型生态,帮助开发者加速实现AI技术的规模化应用。
AI代理被定位为新一代的数字化劳动力,正在逐步融入我们的工作场景,并与我们协同合作。AI代理不仅仅是简单的自动化工具,而是由多个模型构成的复杂系统,能够进行任务推理,将复杂任务拆解为多个步骤,检索相关数据,甚至使用工具生成高质量的回应。英伟达通过Agentic AI构建模块、NEM预训练模型和Nemo框架,使得组织能够轻松开发和部署AI代理,将其引入到各类企业和行业场景中。与培训人类员工类似,也需要对AI代理进行系统的培训,使其能够适应特定企业的业务流程、语言风格和工作方式。AI代理不仅仅是通用工具,更是行业特定任务专家,能在各自领域内高效完成任务并提供卓越的解决方案。
在实际应用中,AI代理已经展示出显著的效果,以下四个具体案例清晰地体现了其在各个领域的潜力。
首先,对于数十亿的知识工作者和学生而言,AI研究助手代理可以高效地处理复杂文档,包括讲座内容、学术期刊以及财务报告等,并通过自动化的方式将这些内容转化为互动式播客,帮助用户更轻松地进行知识学习和信息吸收。这种形式不仅提升了学习效率,还降低了获取高质量知识的门槛。在全球气象预报领域,Cordiff技术通过结合单元回归模型与扩散模型,成功地将全球天气预报的分辨率从25公里降至2公里。这一技术突破为全球气象研究和灾害预警提供了更加精准的数据支持。
此外,软件安全AI代理在企业软件开发和维护过程中发挥了至关重要的作用。这些代理能够持续扫描软件漏洞,及时向开发者发出警报,提醒他们采取必要的修复措施,从而降低安全风险,保障系统稳定运行。
在医药研发领域,虚拟实验室AI代理帮助研究人员在短时间内设计并筛选数十亿种化合物。这种高效的工作方式极大地缩短了药物研发周期,并加速了有前景药物候选者的发现和验证过程。
在视频分析领域,基于Nvidia Metropolis蓝图的AI视频分析代理结合了Nvidia Cosmos、Nematron视觉语言模型、Llama、Nematron LLMS以及Nemo Retriever等技术,能够每日分析来自数十亿个摄像头产生的海量视频数据,总量高达100,000PB。这些代理支持实时互动搜索、视频内容总结和自动化报告生成,广泛应用于城市交通管理、工业生产监控等场景。
它们不仅可以有效标记交通拥堵或潜在危险,还能够在工业设施中实时监控流程并提供改进建议,确保生产的高效与安全。Metropolis代理还能够将来自多个摄像头的数据进行集中整合,在事故发生时迅速重新调度工作人员或机器人进行应急响应。这种实时、精准的调度能力使得AI代理在工业场景中展现出极高的应用价值。
AI代理时代已经全面到来,它不仅能够服务于知识工作者、科研人员和工程师,还能够广泛应用于工业生产、城市管理、医疗健康、气象预测等各个领域。每个组织都可以根据自身需求定制和部署AI代理,以提升生产力、降低运营成本并实现数字化转型。英伟达通过技术平台、开放生态以及强大的合作伙伴关系,为全球AI代理技术的普及和应用奠定了坚实的基础,将在全球范围内推动产业升级和创新发展。
AI技术的出现和发展是为了适应云计算的需求,云计算为AI的实现提供了理想的计算平台,尤其在移动设备上,AI的应用日益完善。随着技术的进步,英伟达正在推动AI从云端扩展至更多的计算场景,尤其是个人PC端。用户将很快迎来一个持续陪伴的AI助手,它将融入我们的日常生活,随时提供帮助。例如,通过Meta眼镜,用户可以轻松指向某个物体,查询相关信息并获得及时反馈。正因为云计算与AI的结合天然契合,英伟达也致力于将AI技术从云端带到每个设备,特别是个人PC。
在过去,Windows 95发布时,彻底改变了计算机行业,它为多媒体服务的普及和应用程序开发带来了巨大的变革。然而,随着AI技术的迅速发展,传统的计算模型已不再能够满足AI所需的高效能和灵活性。英伟达的目标是,未来PC不仅仅是一个计算工具,而是成为强大的AI助手。除了传统的3D API、音频API和视频API外,Windows PC未来将支持更多的AI功能,包括3D生成API、语言生成API以及音频生成AI等。为此,英伟达正在打造一个能够将这些新功能与现有云计算资源相结合的系统架构,进一步提升Windows PC平台的计算能力。
在现有技术框架下,几乎不可能再创建一种全新的AI编程方式,现有的计算架构和开发环境已深刻影响了AI技术的发展。因此,英伟达将重点放在Windows平台的优化上,认为Windows操作系统能够成为世界级的AI平台。为实现这一目标,英伟达推出了WindowsWSL2(WindowsSubsystemforLinux2),它将Linux子系统与Windows操作系统无缝融合,提供更高效的性能支持,并允许开发者直接访问硬件资源,特别是针对CUDA进行了优化,这使得英伟达的图形计算能力得到了充分发挥。
WSL2的引入标志着英伟达将其AI技术全面开放给开发者。无论是Nvidia Nims、Nvidia Nemo,还是各种AI开发蓝图,所有这些资源均可以通过AI.nvidia.com平台访问。用户只需确保PC符合要求,即可轻松下载并运行适配的模型,这些模型包括视觉模型、语言模型、语音模型以及各种动画、数字人类模型等,涵盖了AI应用的多个领域。这一创新不仅将让个人PC具备强大的AI处理能力,还将使PC成为一个真正的AI平台。英伟达承诺,将持续支持和优化这一平台,使全球的工程师和开发者能够在此平台实现创意与创新。
生成式AI是当今科技发展的一大亮点,它能够根据简单的文本提示生成令人惊叹的图像。然而,用文字来生成图像仍然存在一定的挑战。为解决这一问题,英伟达推出了Nim微服务,创作者可以通过3D物体来引导AI进行图像生成,从而克服了纯文本描述的局限性。以概念艺术家为例,他们可以通过布置手工制作或AI生成的3D模块,并结合Nvidia的图像生成Nim(如Flux)快速创建符合3D场景的视觉效果。在此过程中,创作者可以随时调整物体位置、改变相机角度,甚至通过新的提示重新构建场景,从而实现创意的快速落地。
此外,AI技术在视频处理领域的应用前景也相当广阔。随着全球数亿台Windows设备的普及,AI技术将进入每家每户,成为普通用户日常使用的一部分。英伟达与全球领先的PCOEM厂商合作,帮助他们为这一技术堆栈做好充分准备,确保AI功能能够顺利融入Windows PC系统。未来,AI PC将不仅仅是办公和娱乐的工具,更将成为支持创新和提升生产力的核心平台。
通过持续优化和完善AI技术及硬件平台,英伟达正在推动AI技术从云计算延伸至个人PC,并在此过程中赋能全球用户。随着AI技术的不断进步,个人PC将不再是传统的计算工具,而将成为支持复杂AI任务的强大平台,改变人们的工作和生活方式。
4、Cosmos:推出基础模型NVIDIA Cosmos,可与计算机图形与仿真模拟平台Omniverse连接
物理AI是AI技术的下一个前沿,旨在让人工智能不仅理解语言,还能够理解物理世界的规则与动态。在当前的AI发展中,大型语言模型(LLM)已经成为处理文本数据的核心技术。传统的语言模型依赖于对输入文本上下文的解析,并通过逐个生成令牌的方式输出结果。该过程涉及庞大的计算量,特别是在上下文长度和模型参数增加时,计算负荷呈指数级增长。
然而,这种基于语言的推理方式并不适用于物理世界的理解。在物理AI的框架下,AI不仅需要处理语言输入,还需要对物理世界的动态进行建模与推理,具备对物理动态的感知与理解,例如如何处理重力、摩擦力、惯性等物理因素,以及物体之间的空间关系和因果关系。而对物理直觉的理解,对于现有的语言模型而言,是一个巨大的挑战。
针对这一需求,英伟达提出了物理AI的创新解决方案——Nvidia Cosmos。Nvidia Cosmos是一个专为理解物理世界而设计的基础模型,它将物理世界的规则、动态与因果关系纳入AI的认知框架。与传统的语言模型不同,Cosmos不仅关注文本生成,还注重对物理世界的建模和推理能力。它能够帮助AI理解诸如重力、摩擦、惯性等物理现象,并在此基础上进行推理和决策。这一技术的突破,将大大提升AI在实际应用中的智能水平,使其能够执行更加复杂和真实的任务。
Nvidia Cosmos的设计初衷是使AI能够理解物理世界并生成逼真的物理基础合成数据。通过Cosmos,开发者可以处理文本、图像或视频提示,并生成虚拟世界的状态,输出为视频形式。Cosmos适用自动驾驶和机器人应用场景,能够模拟真实世界中的环境变化、光照变化以及物体存在性等因素。开发者可以利用Nvidia Omniverse构建基于物理的地理空间精确场景,并将Omniverse的渲染输出到Cosmos。通过这一流程,Cosmos能够生成极其逼真的物理基础合成数据,涵盖多样的物体、环境条件、天气变化、时间流逝,甚至极限边缘场景。
这一模型为强化学习提供了强大的支持。开发者可以使用Cosmos生成的世界进行AI反馈,改进策略模型或测试和验证模型性能,尤其是在多传感器视角下的应用。Cosmos的强大之处在于它能够实时生成令牌,并通过前瞻性和多重宇宙模拟,预测每一个可能的未来场景,帮助模型选择最佳路径。通过与全球开发者的合作,Nvidia正在助力推动物理AI的下一波发展,创造更多实际应用的可能性。
Nvidia Cosmos是全球首个为理解物理世界而设计的世界基础模型。该平台已经在超过2,000万小时的视频数据上进行了训练,视频内容涵盖了物理动态的各类场景,包括动态的自然环境、人类行走、手部运动、物体操作、快速相机运动等。Cosmos的核心目标是教会AI理解和模拟物理世界,而不仅仅是生成创意内容。借助这一物理AI技术,开发者能够进行多项下游任务:不仅可以生成合成数据以训练其他模型,还可以将其转化为机器人模型的基础,甚至生成多个物理上可行的未来场景,用于仿真和决策优化。
此外,Cosmos还能够为视频生成精确的字幕,这些字幕可用于训练大型语言模型和多模态语言模型。通过这一功能,开发者不仅能够训练机器人,还能提升语言模型的多模态能力,从而拓展AI应用的广度和深度。Nvidia Cosmos包括一个自回归模型,用于实时应用场景,也包括一个扩散模型,用于生成高质量的图像。其分词器能够理解并学习现实世界的词汇,同时,其AI加速的数据管道,针对涉及的大规模数据处理进行了优化,大大提升了数据处理的效率。
今天,Nvidia宣布Cosmos平台已开放授权,开发者可以在GitHub上访问和使用这一基础模型。随着Cosmos的开放,Nvidia希望将这一技术推广至更广泛的领域,包括机器人和工业AI。正如Llama3为企业AI带来了变革,Cosmos作为世界基础模型的开放授权,将为机器人和工业AI领域带来同样深远的影响,推动下一代AI技术的发展。
在将NvidiaCosmos连接到Omniverse时,真正的技术创新和突破开始显现。Omniverse作为一个基于物理原理的模拟系统,不仅仅依赖物理基础,它本身是一个高度复杂的模拟器。当Cosmos与Omniverse结合时,它为Cosmos生成的输出结果提供了基于现实物理世界的控制与条件化机制。这一结合类似于将大型语言模型连接到检索增强生成系统(RAG)中,目的是将AI生成的内容与现实世界的“真相”紧密结合。因此,Cosmos和Omniverse的联动为物理模拟和多重宇宙生成提供了一个强大平台,具有广泛的应用前景,尤其是在机器人技术和工业领域。
具体而言,Cosmos和Omniverse的结合为构建机器人系统提供了必不可少的第三台计算机。每个机器人公司最终都需要三台计算机:一台用于训练AI的计算机,即DGX计算机;一台用于部署AI的计算机,即AGX,这通常被安装在车辆、机器人、自动化移动机器人(AMR)等设备上,具备边缘计算和自主能力;而数字孪生则充当这三台计算机之间的桥梁。数字孪生是AI经过训练后,在实践中优化、生成合成数据、进行强化学习和AI反馈的核心所在。这三台计算机将在数字孪生的驱动下进行协同工作,以实现智能系统的动态优化和精确控制。
Nvidia的工业领域战略就是基于这种“三计算机解决方案”,并与全球领先的仓库自动化解决方案提供商Keon以及全球最大专业服务公司Accenture合作,共同推动物理AI的应用与发展。这一合作的核心在于通过数字孪生技术来进行工业可视化,尤其是在仓储和配送中心的市场中。全球有数百万家工厂和数十万座仓库,这些是全球50万亿美元制造业的支柱,而这些领域都迫切需要软件定义的自动化解决方案。
Keon与Nvidia的合作采用了Mega和Nvidia Omniverse蓝图来构建工业数字孪生,用于测试和优化机器人车队的表现。在此过程中,Keon的仓库管理系统将任务分配给数字孪生中的工业AI大脑,该大脑负责在Omniverse模拟的物理仓库中进行操作。通过这些模拟,机器人车队可以感知和推理数字孪生环境,规划并执行任务。随着任务的持续进行,机器人车队的“智慧”不断迭代,以确保在面对真实世界复杂变量时的有效反应。Mega平台能实时跟踪数字孪生中所有操作状态,帮助Keon在大规模环境下模拟场景,衡量运营KPI,如吞吐量、效率和利用率,并在实际仓库环境中部署更改之前进行验证和优化。
随着这些技术的发展,未来的工业和机器人系统将完全依赖数字孪生。每个工厂、每个仓库将有一个虚拟副本,这个数字孪生能够准确模拟真实世界工厂的所有细节与动态。更进一步,Omniverse和Cosmos的结合将使AI生成的大量未来场景成为可能,而这些场景将帮助AI选择最符合预设KPI的解决方案,从而精确指导真实工厂中AI的部署和执行。通过这种方式,Nvidia正在重新定义工业自治的未来,并推动数字化转型在全球制造业中的广泛应用。
5、Thor:下一代汽车智驾芯片Thor已全面投产,汽车业务将在2026财年提高至50亿美元
自动驾驶革命已经进入实际应用阶段,随着Waymo、特斯拉等公司的成功案例,自动驾驶技术正在迅速成熟并得到广泛应用。Nvidia针对这一行业提供的解决方案包括三大核心计算平台:AI训练平台、模拟系统和合成数据生成系统,结合Omniverse平台和新推出的Cosmos平台,以及车载计算平台。这些计算平台分别用于支持自动驾驶汽车的感知、决策和控制系统。不同的汽车制造商根据需求选择与Nvidia的不同合作模式,可能采用其中的一台、两台或三台计算平台。目前,Nvidia几乎与全球所有主要汽车制造商合作,包括Waymo、Zoox、特斯拉及其数据中心。
全球电动汽车行业领导者比亚迪推出了多款创新的电动自动驾驶车型,梅赛德斯也将在今年开始量产与Nvidia合作的自动驾驶车辆。丰田宣布与Nvidia合作,共同开发下一代自动驾驶汽车。Lucid、Rivian、小米、沃尔沃以及WABI等公司也积极在自动驾驶卡车领域进行研发。Aurora宣布将使用Nvidia的技术开发自动驾驶卡车。全球每年生产大约1亿辆汽车,现有道路上的汽车数量已超过10亿辆,每年总行驶里程超过一万亿英里。随着自动驾驶技术的不断演进,未来这些车辆将逐步实现更高水平的自动化,甚至完全自动驾驶。因此,自动驾驶产业展现出巨大的市场潜力。
预计自动驾驶行业将成为首个万亿级机器人产业,Nvidia在这一领域的业务已达到40亿美元,并预计在今年增长至50亿美元。为了进一步支撑这一庞大的市场需求,Nvidia宣布推出下一代车载处理器——Thor。Thor处理器能够高效处理来自多种传感器的数据,包括摄像头、超高分辨率雷达和激光雷达,将这些传感器数据转化为“token”,并输入到变压器中以预测自动驾驶车辆的路径规划。Thor的计算能力是上一代“Orin”的20倍,而Orin已经成为自动驾驶领域的行业标准。Thor不仅可以支持自动驾驶汽车,还可广泛应用于各类机器人系统,包括自动化移动机器人(AMR)、人形机器人,甚至是“机器人大脑”或“控制中心”,是一款通用型机器人计算平台。
此外,Nvidia在自动驾驶领域对安全性的高度重视也得到了体现。Drive OS已经成为全球首个经过认证、符合SOD(Safety of the Intended Functionality)标准的软件定义可编程AI计算平台,该标准是汽车功能安全领域的最高认证,标志着Nvidia在安全性方面的技术积累与成就。CUDA也因此成为符合ISO26262功能安全要求的计算平台,为自动驾驶和机器人技术提供了坚实的技术支持。
在自动驾驶应用方面,Nvidia通过Omniverse和Cosmos平台实现了重要突破。Omniverse平台能够通过AI技术自动重建数字孪生并生成合成数据,进而辅助训练AI模型。OmniMap结合地图数据和地理空间信息,构建可驾驶的3D环境。驾驶场景变化通过重放驾驶日志或AI交通生成器进行模拟,进一步增强仿真训练数据的多样性。神经重建引擎则利用自动驾驶车辆的传感器日志,创建高保真度的4D仿真环境,通过重放历史驾驶数据生成3D环境中的场景变化,从而扩大训练数据集。Edify3DS则能够自动搜索现有资产库或生成新的虚拟资产,为仿真提供所需的数据种子。
Nvidia的合成数据生成技术,通过结合Omniverse和Cosmos平台,可以大规模生成真实感极强的驾驶场景,缩小仿真数据与现实数据之间的差距。通过文本提示,平台可以生成几乎无限变化的驾驶场景,从而进一步丰富训练数据集的多样性。Cosmos NemoTron视频搜索技术结合驾驶数据和大规模合成数据集,可以有效整合数据,并用于训练深度学习模型。这一技术使得Nvidia的AI数据工厂能够将数百次的实际驾驶数据转化为数十亿有效行驶里程,进一步提升了自动驾驶领域的数据效率和训练精度。
6、机器人:Nvidia Isaac Groot平台助力人形机器人训练,构建模拟学习仿真工作流程。
机器人技术正在迎来重要的转折点,特别是在通用机器人领域,随着技术的不断进步,人形机器人有望成为这一领域的关键突破。通用机器人之所以重要,主要是因为它们可以适应现有的环境,而不需要对环境进行大规模的改造。当前,全球已能够制造三类机器人,这些机器人无需对“绿地”进行开发,而能适应现有的“棕地”环境(Brownfield)。这三类机器人分别为:1)代理型机器人和代理型AI,它们作为信息工作者,可以适应办公室等现有工作环境;2)自动驾驶汽车,依托已有的道路和城市基础设施;3)人形机器人,能够在现有环境中实现高度自主化的工作。如果我们能够解决这三类技术的挑战,它们将共同推动全球最大的技术产业发展。因此,我们认为机器人时代即将来临。
对于机器人技术而言,训练是关键挑战之一,尤其是在人形机器人领域。与自动驾驶领域相比,人形机器人训练所需的模仿数据采集更为复杂。在自动驾驶中,通过道路行驶即可收集大量数据,而在人形机器人的训练中,收集到的真实人类演示数据极其有限。因此,如何利用人工智能和合成数据技术,将数百次或数千次人类演示转化为数百万次合成动作,是推动该领域发展的关键。Nvidia通过Isaac Groot平台为开发者提供了解决这一问题的有效方案,该平台为人形机器人提供了四项关键技术支持:机器人基础模型、数据管道、仿真框架和Thor机器人计算平台。
Isaac Groot平台通过建立一个用于模仿学习的仿真工作流程,为开发者提供了生成指数级扩展数据集的能力。通过Groot Teleop,操作员可以借助Apple Vision Pro远程进入机器人数字孪生进行操作。即便没有物理机器人,操作员依旧能够在虚拟环境中捕获运动数据,从而避免了物理损坏或磨损的风险。操作员通过远程操作示范,能够捕捉到少量的运动轨迹,并利用Groot Mimic扩展这些轨迹,生成更大的数据集。随后,基于Omniverse和Cosmos的Groot Gen平台通过领域随机化和3D到现实的放大,进一步扩展数据集,为机器人的策略训练提供大规模的仿真数据。完成训练后,开发者可以在Isaac SIM中进行闭环测试和验证,再将模型部署到真实机器人上。
由此,Nvidia Isaac Groot正在推动通用机器人时代的到来。这一技术平台不仅为机器人开发提供了重要支持,还大幅提升了数据采集和模型训练的效率。通过IsaacGroot平台,开发者能够生成数百万的数据集,推动通用机器人技术的快速发展。
7、GB10:桌面小型超级计算机,与联发科合作开发预计五月上市
在此基础上,Nvidia在超级计算领域也取得了显著进展,特别是与Project Digits相关的创新突破。Project Digits起始于约十年前,最初的目标是创建深度学习GPU智能训练系统。通过将这一项目优化为DGX,并与RTX、AGX、OVX等Nvidia的计算平台整合,DGX1成为了人工智能计算的革命性标志。DGX1的设计初衷是为研究人员和初创公司提供开箱即用的AI超级计算机,这一目标已经取得了极大的成功。2016年,第一台DGX1交付给OpenAI,埃隆·马斯克和伊利亚·苏茨凯维尔等业内重要人物见证了这一历史时刻。
如今,人工智能技术已逐步渗透到各行各业,超越了研究实验室和初创公司,成为每一位软件工程师、创意艺术家及计算机使用者的核心工具。为了适应这一变革,Nvidia推出了全新的AI超级计算机——Project Digits。这款超级计算机集成了Nvidia的完整AI技术栈,支持包括DGX Cloud在内的各类软件应用。无论是作为云计算平台、分析工作站,还是桌面超级计算机,Project Digits都能够满足不同的使用需求。其核心是一款经过多年研发的“超级秘密”芯片——GB10。
这款芯片由Nvidia与联发科合作开发,采用NVLink技术与Blackwell GPU连接,提供卓越的计算性能。预计这款计算机将在今年五月正式上市,作为一款集成超算栈的小型超级计算机,它具备了高度的适应性和扩展性。无论在云计算平台、分析工作站,还是作为桌面超级计算机,Project Digits都能够高效支持各种任务,并可通过ConnectX技术连接多个设备。