专栏名称: 袋鼠深度精选
嗨,这里是袋鼠深度精选。袋鼠神奇的口袋里一定有你想要的。 我们将用不同的视角和深度与你共同搭建互联网思维。
目录
相关文章推荐
中国兵器工业集团  ·  激光院“标准相干多普勒测风激光雷达”项目通过 ... ·  昨天  
军武次位面  ·  99元3件~大牌代工厂清仓捡漏100%纯棉长 ... ·  昨天  
国防部发布  ·  “和平-2025”多国海上联合演习落幕 ·  13 小时前  
大众新闻-大众日报  ·  实弹射击,禁止驶入! ·  3 天前  
51好读  ›  专栏  ›  袋鼠深度精选

黄仁勋 25 年最新演讲:人工智能的历程非凡,这一年也非凡

袋鼠深度精选  · 公众号  ·  · 2025-01-07 23:00

正文

作者 | 黄仁勋

来源 | 天空之城(ID:Web3SkyCity)

Web3天空之城城主:
黄教主今天上午做的演讲,全网首发视频完整版和图文完整版。Enjoy!
您对来到拉斯维加斯感到兴奋吗?您喜欢我的夹克吗?我想我会选择和盖瑞·夏皮罗不同的方向。我毕竟在拉斯维加斯。如果这行不通,如果你们所有人都不赞同……好吧,那就习惯它吧。
我真的觉得你们需要好好消化一下。大概再过一个小时左右,你们就会感觉很好了。欢迎来到英伟达。事实上,您现在身处英伟达的数字孪生体中。我们将带您前往英伟达。女士们,先生们,欢迎来到英伟达。您现在位于我们的数字孪生体中。这里的一切都是由人工智能生成的。
人工智能的历程非凡,这一年也非凡。这要追溯到1993年。准备好了吗?开始!使用NV1,我们希望制造出能够完成普通计算机无法完成任务的计算机。NV1使得在你的PC中拥有一个游戏主机成为可能。
我们的编程架构被称为UDA。U-D-A。直到稍后一段时间才加上字母C。但是UDA,统一设备架构(Unified Device Architecture)。UDA的第一个开发者,以及第一个在UDA上运行的应用程序,是世嘉的《虚拟战士》。

六年后,我们在1999年发明了可编程GPU。它开启了20多年,20多年来,在这个被称为GPU的不可思议的处理器上取得了令人难以置信的进步。它使现代计算机图形成为可能。如今,30年后,世嘉的《虚拟格斗》完全达到了电影级的画面。这就是即将推出的全新《虚拟格斗》项目。我简直等不及了。简直令人难以置信。
六年后,也就是1999年之后,我们发明了CUDA,从而能够向丰富的算法集合展现GPU的可编程性。 最初,CUDA难以解释,这花费了数年时间,大约六年。
六年后,2012年,Alex Krzyzewski、Ilya Suskevor和Jeff Hinton利用CUDA处理AlexNet,人工智能发展由此进入新的阶段。
从感知型人工智能(理解图像、文字和声音)到生成式人工智能(生成图像、文本和声音),再到如今能够感知、推理、规划和行动的代理型人工智能,发展速度惊人。 我们今晚将讨论其中一部分——物理人工智能,其发展始于2012年。
2018年,谷歌发布Transformer模型BERT,人工智能领域迎来了真正的腾飞。Transformer彻底改变了人工智能领域,甚至整个计算领域的格局。我们认识到,Transformer驱动的机器学习将从根本上改变计算方式,而非仅仅带来新的商业机会。
如今,计算的每个层面都发生了革命性的变化,从手工编写在CPU上运行的指令到创建人类使用的软件工具,机器学习可以创建和优化在GPU上运行的神经网络,从而创造人工智能。技术栈的每一层都发生了彻底的改变,仅仅12年就发生了不可思议的转变。
现在,我们可以理解几乎任何形式的信息,包括文本、图像、声音、氨基酸和物理学知识,并进行翻译和生成。应用几乎是无限的,其核心都基于三个基本问题:输入是什么模态学习的?它翻译成了什么形式的信息?它正在生成什么形式的信息?
机器学习改变了每一个应用程序的构建方式、计算方式以及超越这些的可能性。GPU、GeForce以及所有与AI相关的技术,都是AI普及的基础,而如今,AI正回归GeForce。
有很多事情无法在没有AI的情况下完成,让我向您展示其中一些。例如,实时计算机图形学。在过去,没有任何计算机图形学研究人员或计算机科学家能够对每个像素进行光线追踪,而光线追踪是对光的模拟。 画面中几何体的数量令人难以置信,没有人工智能,这是不可能实现的。
我们做了两件根本性的事情:使用可编程着色和光线追踪加速生成美丽的像素;然后让人工智能控制像素生成,大量生成其他像素。AI能够在空间上生成其他像素,因为它知道颜色应该是什么,它已经在英伟达的超级计算机上进行了训练,因此在GPU上运行的神经网络可以推断和预测我们没有渲染的像素。 这就是DLSS技术。最新一代的DLSS还能生成超出帧数的画面,甚至可以预测未来画面,为每一帧生成三帧额外的画面。
您看到的画面,例如四帧画面,实际上我们只渲染了一帧,其余三帧由AI生成。以全高清或4K显示四帧画面,大约有3300万像素,而我们只计算了两百万像素。通过计算这两百万像素,并让AI预测其余的3100万像素,我们实现了极高的渲染性能,这堪称奇迹。AI的计算量要少得多,当然,这需要大量的训练,但一旦训练完成,生成效率非常高。
这就是人工智能令人难以置信的能力之一,它正在彻底改变GeForce。今天,我们宣布推出下一代产品——RTX Blackwell系列。这是我们全新的GeForce RTX 50系列Blackwell架构,这款GPU拥有920亿个晶体管,4000个顶点着色器,四千万亿次人工智能浮点运算(比上一代AIDA高出三倍),以及380万亿次光线追踪浮点运算,还有125个着色器TFlops,以及性能相同的整数单元,两个双着色器(一个用于浮点运算,一个用于整数运算),来自美光的G7内存,带宽达1.8TB/s,是上一代产品的两倍。
我们现在能够混合AI工作负载和计算机图形工作负载。本代产品最令人惊奇之处在于,可编程着色器现在也能处理神经网络。着色器能够承载这些神经网络,从而实现了神经纹理压缩和神经材质着色,最终获得令人惊艳的图像效果,这完全得益于AI对纹理和压缩算法的学习。这就是全新的RTX Blackwell 5090。
即使是机械设计也令人叹为观止,它配备了双风扇,整张显卡就是一个巨大的散热器。电压调节器设计也达到了目前最先进的水平。工程团队为此付出了巨大的努力。
RTX 4090售价1599美元,许多人都拥有它,这是非常超值的投资,能够大幅提升价值10000美元的PC性能。它采用液冷散热,并配备炫酷的灯光效果。
现在,Blackwell家族的RTX 5070售价仅为549美元,却拥有4090的性能。这得益于四个顶级的、四个万亿次运算的AI张量核心和G7内存。
5090的性能是4090的两倍。我们从一月份开始大规模生产,并成功地将这些强大的GPU应用于笔记本电脑中。这款1299美元的5070笔记本电脑拥有4090的性能。
我们能够将Blackwell显卡缩小并集成到笔记本电脑中,这主要得益于AI技术。我们利用张量核心生成大部分像素,仅对需要的像素进行光线追踪,并使用人工智能生成其余像素,从而实现了非凡的能量效率。计算机图形学的未来是神经渲染。
人工智能与计算机图形学的融合令人惊叹。
这是一场精彩的主题演讲,我们将介绍令人惊叹的全新GPU系列:RTX Blackwell系列。5090甚至可以集成到纤薄的笔记本电脑中,例如厚度仅为14.9毫米的笔记本电脑。此外,还有5080、5070 Ti和5070型号。GeForce将AI带给大众,而如今AI正彻底改变着GeForce。
让我们深入探讨人工智能。行业正竞相扩展人工智能的规模,而规模法则是一个强大的模型。大量研究人员和业内人士观察并证明了这一点:数据越多、模型越大、计算能力越强,模型就越有效。规模定律仍在持续发挥作用。互联网每年产生的数据量都在翻倍,未来几年人类产生的数据量将超过自人类诞生以来的总和。这些数据正变得多模态,包括视频、图像和声音,为AI的基础知识奠定基础。
除了原始规模定律,还有两个规模定律出现:训练后规模定律和合成数据生成。训练后规模定律利用强化学习和人工反馈等技术,AI根据人类反馈改进自身技能,类似于人类在学业完成后得到导师反馈并改进的过程。合成数据生成则类似于自我练习,AI通过不断尝试解决可验证的复杂问题来改进自身。这些后训练技术需要大量计算,但最终能产生令人难以置信的模型。
我们现在有了第三个规模法则,它与测试时缩放有关。测试时缩放是指AI在使用过程中,能够灵活分配计算资源,不再仅仅改进参数,而是专注于决定使用多少计算资源来生成答案。推理和长期思考是两种实现方式,AI系统可能将问题分解成多个步骤,产生多个想法并进行评估,最终选择最佳方案。测试时缩放已被证明极其有效。
从ChatGPT到O1、O3再到Gemini Pro,这一技术序列的令人难以置信的成就,展现了所有这些缩放定律的出现。所有这些系统都经历了预训练、后训练和测试时缩放的过程。这需要大量的计算,我们希望社会能够扩展计算能力,以产生更优越的智能,解决更多挑战性问题。
规模定律推动了对英伟达计算,特别是Blackwell芯片的巨大需求。Blackwell目前已全面投产,由约15家计算机制造商提供200多种不同配置的系统,采用液冷、风冷等多种冷却方式,并支持多种CPU和NVLink配置,以满足全球数据中心的需求。这些系统目前在约45家工厂生产,反映了人工智能的普及程度和各行业对人工智能的转向。
我们如此努力地推动这项技术,是因为我们需要更多的计算能力。 这就像……珍妮? 我不知道,我很难说……你永远不想把手伸到黑暗的地方……好吧。等着瞧。等着瞧。我以为我值得。看来,约尼尔认为我不够格。好吧。这是我的展示。这是一个展示。
这个NVLink系统,GB200,NVLink 72,重达1.5吨,包含60万个零件,相当于20辆汽车,功率为120千瓦。
它有一个背板,连接所有这些GPU,两英里长的铜缆,5000根电缆。这种产品正在全球45家工厂生产。我们制造它们,用液体冷却它们,测试它们,拆卸它们,并将它们以部件的形式运送到数据中心,因为它们重达一吨半。我们在数据中心外部重新组装并安装它们。生产规模令人难以置信。
但这一切的目标是,由于规模定律正在推动计算如此之快,以至于Blackwell与我们上一代相比,这种级别的计算使每瓦性能提高了四倍,每美元性能提高了三倍。这意味着在一代人的时间里,我们将这些模型的训练成本降低了三倍,或者,如果你想将模型的大小增加三倍,成本大致相同。重要的是,这些是我们在使用ChatGPT或Gemini以及将来使用手机时都会使用的生成token,几乎所有这些应用程序都将消耗这些AItoken,而这些AItoken是由这些系统生成的。每个数据中心都受到功率的限制,因此,如果Blackwell的每瓦性能是上一代的四倍,那么数据中心可以产生的收入、可以产生的业务量将增加四倍。所以,这些AI工厂系统如今确实就是工厂。
现在,所有这一切的目标就是为了创造一个巨大的芯片。我们需要的计算量确实非常惊人。这基本上就是一个巨大的芯片。如果我们不得不去制造一个芯片……对不起,各位。你们看到了吗?太酷了。看看这个,这里有迪斯科灯。如果我们必须把它做成一个芯片,很显然,它会有晶圆那么大,但这还不包括良率的影响,它可能需要三到四倍那么大。但我们这里基本上有72个Blackwell GPU或144个芯片。这个芯片的算力是1.4exaflops。世界上最大、最快的超级计算机,直到最近才……整个房间的这台超级计算机直到最近才达到1艾弗洛普以上。这是1.4exa flops的AI浮点运算性能。
它有14太字节的内存,内存带宽为每秒1.2 PB。这基本上就是现在整个互联网的流量,全世界的互联网流量都在这些芯片上处理。我们总共有130万亿个晶体管,2592个CPU核心,以及大量的网络设备。所以这些……我希望我能做到这一点。我想我做不到。所以这些是Blackwells,这些是我们的ConnectX网络芯片,这些是NVLink,我们试图掩盖NVLink主干的存在,但这不可能。这些都是HBM内存,总共14太字节的HBM内存。
这就是我们正在努力实现的目标,一个奇迹,Blackwell系统的奇迹。Blackwell芯片是目前世界上最大的单芯片。但这并非奇迹的全部,它是Grace Blackwell系统。所有这一切的目标,是为了让我们能够……
谢谢。谢谢。请问有椅子可以让我坐一会儿吗?可以给我一杯米勒醇爽啤酒吗?我们竟然在米勒醇爽啤酒体育场,真是不可思议!这就像来到英伟达却没拿到显卡一样。
我们需要大量的计算能力,因为我们想要训练越来越大的模型。以往的推理只是一次性的,但未来,人工智能将能够进行自我对话,进行思考,进行内部反思和处理。现在,token生成速度为每秒20到30个,与人类阅读速度相当。但未来,有了GPT-o1、Gemini Pro和O1、O3等新模型,它们能够进行自我对话和反思,思考问题。因此,token的摄入速度将大幅提高,我们需要大幅提升token生成速率。同时,我们必须大幅降低成本,才能提供卓越的服务质量,保持客户成本的持续低廉,并确保人工智能的持续扩展。这就是根本目的,也是我们创建NBLink的原因。
在企业领域,自主式人工智能是最重要的发展之一。自主式人工智能是测试时扩展的完美例子。它是一个模型系统,一部分是理解和与客户/用户互动,一部分可能是检索信息,像抹布一样的语义AI系统。它可能访问互联网,学习PDF文件,使用工具、计算器,或使用生成式AI生成图表等。它会迭代,将问题分解成一步步的步骤,并迭代所有不同的模型。过去,你提出问题,答案就会涌现出来。未来,你提出问题,后台将有一大堆模型在工作。因此,推理所需的计算量将急剧增加,因为我们追求越来越好的答案。
为了帮助行业构建自主智能体AI,我们的市场策略并非直接面向企业客户,而是与IT生态系统中的软件开发者合作,将我们的技术整合到他们的产品中,从而实现新的功能,就像我们之前与CUDA库的合作一样。现在,我们希望将同样的方法应用于AI库。
就像过去的计算模型拥有用于计算机图形学、线性代数或流体力学的API一样,未来,在CUDA加速库之上,将会有AI库。
我们已创建三样工具来帮助生态系统构建自主智能体AI:NVIDIA NIMS、NVIDIA NEMO和一系列开源蓝图。
NVIDIA NIMS本质上是一套打包好的AI微服务,包含CUDA DNN、Cutlass、Tensor RTLM或Triton等复杂的CUDA软件,以及经过打包和优化的模型,可部署到任何地方。这些模型涵盖视觉、语言理解、语音、动画、数字生物学等领域,并即将推出物理AI模型。由于NVIDIA GPU已广泛应用于各大云平台和原始设备制造商(OEM),这些AI模型可在任何地方运行,方便用户集成到自身软件中,创建可在Cadence、ServiceNow或SAP等平台上运行的AI代理。
NVIDIA NEMO是一个数字员工入职和培训评估系统。未来的AI代理将如同数字员工队伍,与人类员工协同工作。NEMO提供各种库,帮助AI代理接受针对公司特定语言、业务流程和工作方式的培训。通过展示工作成果示例、接收反馈和评估,可以对AI代理进行防护,设定其行为规范和信息访问权限。
因此,未来很多公司的IT部门将成为AI代理的HR部门,负责维护、培育、入职和改进大量的数字代理。
此外,我们还提供大量完全开源的蓝图,涵盖各种不同类型的代理,供生态系统使用和修改。
今天,我们将宣布一些令人兴奋的新功能。
我们发布了一个基于 NVIDIA LLAMA Nemotron 语言基础模型的完整模型家族。LLAMA 3.1 现象级成功,Meta 下载次数约 65 万次,并被衍生出约 6 万个不同的模型,推动了几乎所有企业和行业投入 AI 工作。
我们发现 LLAMA 模型可针对企业用途进行更好的微调,因此我们利用自身专业知识和能力对这些模型进行了微调,并将其转变为 LLAMA Nemotron 开放模型套件。套件中包含一些极其小巧,响应速度极快的模型,我们称之为超级 LLAMA Nemotron 超级模型,它们是主流模型版本。超大型模型则可作为许多其他模型的教师模型,例如奖励模型、评估器或裁判,为其他模型提供反馈,并通过多种方式进行蒸馏。这个强大而大型的知识蒸馏模型现已上线。
这些模型在聊天排行榜、指令排行榜和检索排行榜上均排名第一,涵盖人工智能代理所需的各种功能。我们还与生态系统合作伙伴紧密合作,将所有 NVIDIA AI 技术融入 IT 行业。ServiceNow、SAP 和西门子在工业 AI 领域取得了显著成果,Cadence 和 Synopsys 也表现出色。我们与 Perplexity 的合作也令人自豪,他们彻底改变了搜索方式。
面向全球软件工程师的 Codium,将成为下一个大型 AI 应用,软件编码将是下一个大型 AI 服务领域。全球有 3000 万软件工程师,每个人都将拥有一个编码助手,否则生产效率和代码质量都会显著下降。
全球有 10 亿知识工作者,AI 智能体很可能成为下一个万亿美元级产业,它将是新的数字劳动力,为我们工作并与我们一起工作。
AI智能体是一个能够推理任务、将其分解成子任务,并检索数据或使用工具来生成高质量响应的模型系统。英伟达的自主式AI构建模块、NIM预训练模型和NEMO框架使组织能够创建和管理他们自己的模型,轻松开发AI智能体并在任何地方部署它们。我们将像对待员工一样,对我们的代理劳动力进行入职培训和技能培训。AI代理是特定领域的专家。
以下是一些例子:AI研究助理代理可以帮助数十亿的知识工作者和学生处理复杂的文档(如讲座、期刊、财务结果),并生成交互式播客以方便学习;Corda通过结合U-net回归模型和扩散模型,将全球天气预报的分辨率从25公里降低到2公里;软件安全AI代理持续扫描软件中的漏洞,并提醒开发人员采取必要措施;虚拟实验室AI代理帮助研究人员设计和筛选数十亿种化合物,以更快地找到有希望的候选药物。
基于NVIDIA Metropolis蓝图构建的NVIDIA分析AI代理,包括NVIDIA Cosmos Nematron视觉语言模型、Lama Nematron大型语言模型和NEMO Retriever,分析来自数十亿个摄像机每天生成的10万PB视频数据。它们支持交互式搜索、摘要和自动化报告,并有助于监控交通流量,标记拥堵或危险情况;在工业设施中,它们监控流程并生成改进建议,并在发生事件时重新分配工人或机器人。
代理式AI的时代已经到来,惠及每个组织。AI是在云中创建的,也是为云而创建的,当然,在手机上使用AI也同样完美。很快,我们将拥有一个持续陪伴您的AI,并且当您使用元眼镜时,可以指向或观察某物,并询问任何您想要的信息。因此,人工智能在云端是完美的,在云端创建的东西在云端也运行完美。然而,我们希望能够将人工智能带到任何地方,将其部署到任何云端,公司内部,甚至个人电脑上。
Windows 95彻底改变了计算机行业,引入了全新的多媒体服务,并永久性地改变了应用程序的开发方式。然而,这种计算模型并非人工智能的理想环境。
我们希望未来,人工智能能够成为用户的AI助手。这需要超越单纯的3D、声音和视频API,转向生成式API:用于3D、语言、声音等等。 这需要一个能够利用云计算巨大投资的系统。 开发另一种人工智能模型的编程方式是不现实的。
因此,如果能将Windows PC打造成世界一流的AI PC,将意义非凡。答案是Windows WSL 2。WSL 2在一个系统中运行两个操作系统,运行流畅,专为开发者设计,并提供对裸机的访问权限。它针对云原生应用程序和CUDA进行了优化,能够完美支持CUDA。
因此,我们展示的所有内容,包括NVIDIA NIMS、NVIDIA NEMO以及将在ai.nvidia.com发布的蓝图,都可在符合要求的电脑上运行。 我们将提供各种视觉、语言、语音以及数字人物模型等,用户只需下载即可运行。
我们的重点是将Windows WSL 2和Windows PC打造成为一流的目标平台,并提供长期支持和维护。这对全球工程师和开发者来说都将是一件意义重大的事情。
以下是一个例子:生成式AI可以根据简单的文本提示合成图像。但仅靠文字控制图像构成可能存在挑战。使用NVIDIA NIM微服务,创作者可以使用简单的3D对象指导AI图像生成。概念艺术家可以使用3D资产(手工创建或AI生成)来指导图像生成NIM(例如Flux),从而创建与3D场景相符的视觉效果。
添加或移动对象以细化构图,更改摄像机角度以拍摄完美的镜头,或使用新的提示重新构想整个场景。借助生成式AI和NVIDIA NIM,艺术家可以快速实现他们的创意。用于您PC的NVIDIA AI,已准备好应用于全球数亿台安装了Windows的PC。我们合作的所有PC原始设备制造商(OEM),也就是全球所有领先的PC原始设备制造商,都将为这个堆栈做好他们PC的准备。因此,AI PC即将来到您家附近。
Linux很好。让我们谈谈物理AI。想象一下,您的大型语言模型:将上下文和提示放在左边,它一次生成一个词元来产生输出。这基本上就是它的工作原理。中间的这个模型相当庞大,拥有数十亿个参数,上下文长度非常长,因为您可能决定加载一个PDF文件,甚至多个PDF文件后再提出问题。这些PDF文件被转换成词元。注意力机制,也就是Transformer的基本注意力特性,让每一个词元都找到它与其他每个词元之间的关系和关联。因此,您可能拥有数十万个词元,计算负载呈二次方增长。它会处理所有参数、所有输入序列,将其通过Transformer的每一层,并产生一个词元。这就是我们需要Blackwell的原因。然后,当前令牌处理完成后就会生成下一个令牌。它将当前令牌放入输入序列中,然后利用整个序列生成下一个令牌。它一次只处理一个令牌。这就是Transformer模型,也是它如此高效,同时又如此耗费计算资源的原因。
如果不是PDF,而是您的周围环境呢?如果不是提示或问题,而是一个请求呢?例如,“去那边拿起那个盒子,然后把它拿回来”。而且,它生成的不是文本令牌,而是动作令牌。我刚才描述的,正是机器人未来发展的一个非常合理的场景。这项技术即将到来。但我们需要做的,是创建一个有效的、世界模型,与GPT这种语言模型相对。这个世界模型必须理解世界的语言,理解物理动力学(比如重力、摩擦力和惯性),理解几何和空间关系,理解因果关系(如果你扔下什么东西,它就会落到地上;如果你戳它一下,它就会倒),以及客体永久性(如果你把一个球滚过厨房的柜台,当它滚到另一边时,球并没有进入另一个仍然存在的量子宇宙)。
所有类型的直觉理解,都是当前大多数模型难以实现的。因此,我们需要一个世界基础模型。
今天,我们宣布推出NVIDIA Cosmos,一个旨在理解物理世界的世界基础模型。其效果,唯有亲眼目睹才能真正理解。
NVIDIA Cosmos是一个世界基础模型开发平台,旨在推动物理AI发展。它包含自回归世界基础模型、基于扩散的世界基础模型、高级分词器以及NVIDIA CUDA数据管道。该模型能够摄取文本、图像或视频提示,并生成虚拟世界状态视频。
Cosmos优先考虑AV和机器人用例的独特需求,例如真实世界环境、照明和物体持久性。开发者使用NVIDIA Omniverse构建基于物理的、地理空间精确的场景,然后将Omniverse渲染输出到Cosmos,后者生成逼真的、基于物理的合成数据,涵盖不同的物体、环境以及天气、时间或极端情况等条件。
开发者可以使用Cosmos为强化学习AI反馈生成世界,用于改进策略模型,或测试和验证模型性能,甚至跨多传感器视图进行测试。Cosmos可以实时生成令牌,为AI模型带来预见性和多宇宙模拟能力,生成所有可能的未来以帮助模型选择正确的路径。
NVIDIA与全球开发者生态系统合作,推动下一波物理AI发展。NVIDIA Cosmos,全球首个世界基础模型,利用2000万小时的视频进行训练。这些视频重点关注物理动态事物,例如动态自然主题、人类行走、手部移动、操作物体以及快速摄像机运动场景。
其核心在于教AI理解世界,而非生成创意内容,目标是让AI理解物理世界。通过物理AI,我们可以生成合成数据来训练模型,对其进行蒸馏,将其转化为机器人模型的种子,并生成多个基于物理、物理上合理的未来场景,模拟“奇异博士”的场景。因为这个模型理解物理世界。
它可以进行字幕制作,拍摄视频并制作高质量字幕,这些字幕和视频可用于训练大型语言模型,特别是多模态大型语言模型。 利用这项技术和基础模型,可以训练机器人和大型语言模型。这就是英伟达宇宙(NVIDIA Cosmos)。
该平台包含一个用于实时应用的自回归模型、一个用于生成超高质量图像的扩散模型、一个学习了现实世界词汇的强大标记器,以及一个端到端CUDA加速和AI加速的数据处理管道,用于处理大规模数据并进行模型训练。这是世界上第一个此类数据处理管道,所有这些都是Cosmos平台的一部分。
今天,我们宣布Cosmos采用开放许可,并在GitHub上开放。我们希望这个包含小型、中型和大型模型(快速模型、主流模型和教师模型,即知识迁移模型)的平台,能像LLAMA3改变企业AI一样,改变机器人和工业AI领域。
将Cosmos连接到Omniverse后,其魔法便显现。Omniverse是一个基于算法物理学、遵循物理原理的仿真系统,即模拟器。它为Cosmos提供真实依据,使Cosmos生成的输出更可靠,这与将大型语言模型连接到检索增强生成系统(RAG)的理念相同,都是为了使AI生成内容建立在真实依据之上。两者结合,形成一个物理模拟的、基于物理的多元宇宙生成器,其应用前景非常广阔,尤其在机器人技术和工业应用领域。
Cosmos加上Omniverse,再加上Cosmos本身,构成了构建机器人系统所需的第三台计算机。每个机器人公司最终都需要三台计算机:一台用于训练AI的DGX计算机;一台用于部署AI的AGX计算机,部署在汽车、机器人、自动移动机器人(AMR)等各种边缘设备中,实现自主运行。
连接两者需要一个数字孪生,它正是所有模拟的基础。数字孪生是训练好的AI进行实践、改进、合成数据生成、强化学习和AI反馈等操作的场所,因此它是AI的数字孪生。这三台计算机将交互式工作,这套三机系统正是英伟达针对工业世界的战略,我们已讨论多时。与其说是“三体问题”,不如说是“三体计算机解决方案”,它是机器人领域的英伟达。
让我举例说明。首先,我们如何将这些应用于工业数字化?数百万家工厂和数十万个仓库构成了50万亿美元制造业的支柱,所有这些都必须实现软件定义和自动化,并融入机器人技术。我们正与全球领先的仓库自动化解决方案提供商KION以及全球最大的专业服务提供商埃森哲合作,他们高度关注数字制造,我们正共同努力创造一些特别的东西。我将立即演示。我们的市场策略与其他所有软件和技术平台相同,都是通过开发者和生态系统合作伙伴实现的,而与Omniverse连接的生态系统合作伙伴数量持续增长。原因很简单:每个人都想将产业的未来数字化,在全球GDP的50万亿美元中,存在大量浪费和自动化机会。
让我们看看与凯傲集团(KION)和埃森哲的合作案例。凯傲集团(一家供应链解决方案公司)、埃森哲(一家全球领先的专业服务公司)以及英伟达,正将物理人工智能引入价值一万亿美元的仓库和配送中心市场。管理高性能仓库物流需要应对复杂的决策网络,这些决策受每日和季节性需求变化、空间限制、劳动力可用性和各种机器人及自动化系统集成的影响。而预测物理仓库的运营KPI在今天几乎是不可能的。
为了应对这些挑战,KION正在采用MEGA,这是一个NVIDIA Omniverse蓝图,用于构建工业数字孪生体以测试和优化机器人车队。KION的仓库管理解决方案将任务分配给数字孪生体中的工业AI大脑,例如将货物从缓冲区位置移动到穿梭式存储解决方案。机器人的大脑位于物理仓库的模拟环境中,使用OpenUSD连接器将其数字化到Omniverse中,以将CAD、视频和图像聚合到3D、激光雷达到点云以及AI生成的数据。机器人车队通过感知和推理其Omniverse数字孪生环境来执行任务,规划其下一个动作并采取行动。
机器人的大脑通过传感器模拟结果状态,并据此决定下一步动作。MEGA精确追踪数字孪生体中所有事物的状态,并持续循环运行。现在,KION能够大规模模拟无限场景,同时测量运营KPI,例如吞吐量、效率和利用率,所有这些都在将更改部署到物理仓库之前完成。KION、英伟达和埃森哲正携手重塑工业自动化。
一切都在模拟中进行。未来,每个工厂都将拥有一个与真实工厂运作方式完全相同的数字孪生体。事实上,您可以使用Omniverse和Cosmos生成大量未来场景,然后由人工智能选择对任何KPI最优的场景,这将转化为部署到真实工厂中的AI程序或编程约束。
另一个例子是自动驾驶汽车。自动驾驶革命已经到来,在Waymo和特斯拉的成功推动下,多年发展后,自动驾驶汽车的到来已成定局。我们为该行业提供的产品包括三台计算机:用于训练AI的训练系统、模拟系统和合成数据生成系统(Omniverse和Cosmos),以及车内计算机。每家汽车公司与我们的合作方式可能有所不同,可能使用一台、两台或三台计算机。
我们几乎与全球所有主要的汽车公司都有合作,包括Waymo、Zooks和特斯拉的数据中心,比亚迪(全球最大的电动汽车公司),以及即将推出新款配备英伟达技术的捷豹路虎汽车,梅赛德斯-奔驰今年也将投产配备英伟达技术的汽车车队。我很高兴地宣布,丰田和英伟达今天将携手合作,共同打造下一代自动驾驶汽车。还有许多优秀公司,例如Lucid、Rivian、小米和沃尔沃等。Wabi正在研发自动驾驶卡车,我们本周还宣布Aurora将使用英伟达的技术研发自动驾驶卡车。

全球每年生产1亿辆汽车,道路上行驶的汽车有10亿辆,每年行驶里程达万亿英里,所有这些汽车都将实现高度自动驾驶,甚至即将实现完全自动驾驶。这将是一个极其庞大的产业,我预测这很可能是第一个万亿美元级的机器人产业。我们的业务,请注意,仅仅是这些开始投产的汽车中的一部分,规模就已经达到40亿美元,今年的运行速度可能约为50亿美元。
今天,我们宣布我们下一代汽车处理器——Thor。
这是Thor,一款机器人电脑,它接收并处理来自大量传感器的信息,包括无数个高分辨率摄像头、雷达和激光雷达。该芯片将传感器数据转换成标记,放入转换器并预测下一条路径。这款自动驾驶电脑现已全面投产。
Thor的处理能力是上一代Orin的20倍,而Orin是目前自动驾驶车辆的行业标准。Thor已全面投产,并广泛应用于各种机器人,例如自主移动机器人(AMR),可作为机器人或机械手的大脑。它是一款通用的机器人计算机。
我们DRIVE系统的第二部分,也是我引以为傲的部分,是对安全的专注。DRIVE OS是首个获得ASIL-D认证的软件定义的可编程AI计算机,ASIL-D是汽车功能安全领域的最高标准。这是大约15000个工程师年努力的结果,因此CUDA现在是一个功能安全可靠的计算机。
接下来,我想向大家展示如何在自动驾驶汽车的背景下使用Omniverse和Cosmos。我将展示如何利用AI自动重建数字孪生体,并以此来训练未来的AI模型。
自动驾驶汽车革命已经到来。建造自动驾驶汽车需要三台计算机:NVIDIA DGX用于训练AI模型;Omniverse用于测试驾驶和生成合成数据;以及车载超级计算机AGX。合成数据对于训练至关重要,因为现实世界的数据有限。NVIDIA Omniverse、AI模型和Cosmos共同构建自动驾驶车辆数据工厂,生成合成驾驶场景,从而大幅提升训练数据量。Omnimap融合地图和地理空间数据以构建可行驶的3D环境,驾驶场景变化则可通过回放驾驶日志或AI交通生成器生成。
神经重建引擎利用自动驾驶汽车传感器日志创建高保真4D仿真环境,通过回放3D驾驶过程并生成场景变化来扩充训练数据。Edify 3DS自动搜索或生成资产,创建可用于仿真的场景。Omniverse场景用于训练Cosmos生成海量逼真数据,缩小仿真与现实间的差距,并通过文本提示生成几乎无限的驾驶场景变化。






请到「今天看啥」查看全文