北京时间1月7日 (星期二)上午10:30,英伟达CEO黄仁勋在CES展会上发表演讲。他认为:AI的下一个前沿是物理AI。他还发布了一个英伟达的新平台【Cosmos】。
简单来说,Cosmos是一个世界模型平台,上面有一系列开源、开放权重的视频世界模型,这可以为机器人、自动驾驶汽车等在物理世界中运行的AI系统生成大量照片级真实、基于物理的合成数据,可以很好的解决该领域数据严重不足的问题。
这篇75页的官方报告,不好理解,但绝对专业。让我们一起来看看!
1. 物理AI是什么?
物理AI系统需要与物理世界交互,但训练数据获取困难,因为需要包含观察和动作序列的数据,而这些动作可能会对系统和世界造成损害。
世界模型(World Foundation Model, WFM)作为物理世界的数字孪生体,可以帮助物理AI系统安全地进行交互和训练,解决数据规模问题。
2. 世界模型(World Foundation Model, WFM)是什么?
平台架构:Cosmos World Foundation Model Platform 包括视频策展管道、预训练世界模型、示例后训练模型和视频分词器。
——》预训练方法:采用扩散模型和
自回归模型
两种方法进行预训练,扩散模型通过逐步去除高斯噪声视频中的噪声来生成视频,自回归模型则逐片生成视频,基于过去生成的内容;
——》分词器设计:开发了基于注意力的编码器-解码器架构来学习视频分词,包括连续和离散的分词方式,以最大化保留原始视频内容;
——》后训练方法:在特定的物理AI环境中收集数据集,对预训练的世界模型进行微调,以适应特定的物理AI设置。
3. 优秀在哪里?
使用大规模视频训练数据集,包括驾驶、手部运动、人类活动等多种类别,通过视频策展管道提取高质量视频片段。
——》扩散模型:在7B和14B参数规模下,能够生成高质量、物理准确的视频,尤其在视觉质量和动作细节上表现优异。
——》自回归模型:在4B和12B参数规模下,能够基于当前视频观察预测未来视频,通过引入文本提示进行更好的控制。
4.应用案例
相机控制:通过相机姿态条件,实现3D可导航的虚拟世界生成,生成的视频在3D一致性和视频质量上优于现有技术。
机器人操控:在不同机器人设置上进行后训练,实现基于指令的视频预测和基于动作的下一帧生成,模型能够根据机器人动作生成符合预期的视频。
自动驾驶:通过多视角支持,创建多视角世界模型,用于训练自动驾驶代理,生成的视频在多视角一致性和轨迹跟随准确性上表现出色。
5.有什么意义?
Cosmos World Foundation Model 为物理AI系统提供了一个强大的工具,能够生成逼真的虚拟环境和模拟物理交互,有助于物理AI系统的开发和训练。
能够极大地提高制造业生产效率与质量,创新服务模式,推动行业智能化转型,培育新的增长点。