特斯拉渴望成为世界领先的人工智能公司之一。迄今为止,他们还没有部署最先进的自动驾驶系统,这项荣誉适用于Alphabet的Waymo。此外,特斯拉在生成式人工智能世界中也不见踪影。话虽如此,由于数据收集优势、专业计算、创新文化和领先的人工智能研究人员,特斯拉有可能在自动驾驶汽车和机器人领域实现跨越。
特斯拉目前在内部拥有非常少量的人工智能基础设施,只有约4000个NVIDIA V100和约16000个NVIDIA A100。与世界上其他大型科技公司相比,这是一个非常小的数字,因为像微软和Meta这样的公司拥有超过10万个GPU,而且他们希望在中短期内将这些数字翻一番。特斯拉薄弱的人工智能基础设施部分是由于其内部D1训练芯片的多次延迟。
现在情况正在迅速发生变化。
特斯拉计划1.5年内将其人工智能能力大幅提高了10倍以上。这部分是为了他们自己的能力,但也有很大一部分是为了马斯克新成立的人工智能公司X.AI。
今天,我们想深入了解特斯拉的人工智能能力,包括其拥有的H100和Dojo D1数量,以及按季度增长情况,以及特斯拉因其模型架构、培训基础设施和边缘推理(包括HW 4.0)而产生的独特需求。最后,我们想讨论X.AI在做什么,它是马斯克对OpenAI的竞争对手,从OpenAI挖走了许多著名的工程师。
D1训练芯片的故事是一个漫长而艰巨的故事。它面临着从硅设计到电力输送的问题,但现在特斯拉声称它已经做好了引人注目的准备,并开始批量生产。
特斯拉自2016年以来一直在为其汽车设计内部人工智能芯片,自2018年以来一直为数据中心应用设计。在D1芯片发布之前,semianalysis独家披露了他们使用的特殊封装技术。这种技术被称为InFO SoW。简单来说,可以把它想象成一个晶圆大小的扇形封装。这与Cerebras的整张晶圆大小的AI芯片原理类似,但优点是允许进行已知的良好模具测试。这是特斯拉架构中最独特、最有趣的方面,因为这款InFO SoW内置了25个芯片,没有直接连接存储器。
早在2021年,semianalysis还更详细地讨论了他们芯片架构的优点和缺点。自那以来,最有趣的方面是,由于片上存储器不够,特斯拉不得不制造另一个位于PCIe卡上的芯片来提供存储器连接。
特斯拉本应在2022年提升产量,但由于硅和系统问题,并未这么做。现在已经进入2023年年中,D1芯片终于在提高产量。该架构非常适合特斯拉独特的用例,但值得注意的是,它对内存带宽严重受限的LLM没有用处。
特斯拉的用例是独一无二的,因为它必须专注于图像网络。因此,它们的架构差别很大。过去,我们讨论了深度学习推荐网络和基于转换器的语言模型需要非常不同的架构。图像/视频识别网络还需要不同的计算、片上通信、片上存储器和片外存储器需求组合。
在训练过程中,这些卷积模型在GPU上的利用率非常低。随着英伟达的下一代对变压器,特别是稀疏MoE的进一步优化,特斯拉对其差异化、优化的卷积架构的投资应该会很好地发挥作用。这些图像网络必须符合特斯拉推理基础设施的限制。
特斯拉HW 4.0,第二代FSD芯片
除了由台积电代工制造的D1训练芯片之外,但在特斯拉电动汽车内部运行人工智能推理的芯片被称为全自动驾驶(FSD)芯片。特斯拉汽车上的车型极其有限,因为特斯拉有一个非常顽固的信念,即他们不需要巨大性能就可以实现全自动驾驶。此外,特斯拉的成本限制比Waymo和Cruise严格得多,因为它们实际上出货量更大。与此同时,Alphabet Waymo和通用汽车Cruise正在使用全尺寸GPU,在开发和早期测试期间,它们的汽车成本高出10倍,并希望为自己的汽车制造更快(更昂贵)的SoC。
特斯拉第二代FSD芯片自2023年2月开始在汽车上发货,该芯片的设计与第一代芯片非常相似。第一代基于三星的14nm工艺,围绕三个四核集群构建,共有12个Arm Cortex-A72核心在2.2 GHz主频下运行。然而,在第二代设计中,特斯拉将CPU内核数量增加到了五个4核集群(20个),总共有20个Cortex-A72内核。
第二代FSD芯片最重要的部分是三个NPU核心。三个核心使用32 MB的SRAM,每个用于存储模型权重和激活。每个周期,从SRAM向乘法累加单元(MAC)读取256字节的激活数据和128字节的权重数据。MAC的设计是一个网格,每个NPU核心都有一个96x96的网格,每个时钟周期总共有9216个MAC和18432个操作。每个芯片有三个NPU以2.2 GHz的频率运行,总计算能力为每秒121.651万亿次运算(TOPS)。
第二代FSD具有256GB的NVMe存储和16GB的Micron GDDR6,14Gbps,位于128位内存总线上,提供224GB/s的带宽。后者是最值得注意的变化,因为带宽一代比一代增加了约3.3倍。FLOPS相对于带宽的增加表明HW3很难被充分利用。每个HW 4.0有两个FSD芯片。
HW4.0板级性能的提高是以额外的功耗为代价的。与HW3.0相比,HW4.0级的空闲功耗大约是HW3.0主板的两倍。在高峰期,预计它也会更高。外部HW4.0外壳在10安培时显示为16伏,转换为160瓦的使用功率。
尽管HW4.0的性能有所提高,但特斯拉希望HW3.0也能实现FSD,可能是因为他们不想改造购买FSD的现有HW3.0用户。
信息娱乐系统采用AMD GPU/APU。与上一代有一个单独的子板相比,这也与FSD芯片在同一块板上。
HW4.0平台支持12个摄像头,其中一个用于冗余目的,因此有11个摄像头在使用中。在旧的设置中,前置摄像头集线器使用了三个分辨率较低的120万像素摄像头。新平台使用了两个分辨率更高的500万像素摄像头。
特斯拉目前不使用激光雷达传感器或其他类型的非摄像头方法。在过去,他们确实使用雷达,但在第三代中期就被取消了。这大大降低了汽车的制造成本,特斯拉对其进行了优化,该公司认为纯摄像头传感是自动驾驶汽车的一条可能路线。然而,他们也指出,如果有可行的雷达,他们将把它与摄像系统集成在一起。
在HW4.0平台中,有一个内部设计的雷达,名为Phoenix。Phoenix将雷达系统与摄像头系统相结合,旨在通过利用更多数据创造更安全的车辆。Phoenix雷达使用76-77 GHz频谱,峰值有效各向同性辐射功率(EIPR)为4.16瓦,平均EIRP为177.4毫瓦。它是一种具有三种传感模式的非脉冲汽车雷达系统。雷达PCB包括用于传感器融合的Xilinx Zynq XA7Z020 FPGA。
特斯拉AI车型差异化
特斯拉的目标是生产基础人工智能模型,为其自动驾驶机器人和汽车提供动力。两者都需要意识到周围的环境并在周围导航,因此相同类型的人工智能模型可以应用于两者。为未来的自主平台创建高效的模型需要大量的研究,更具体地说,需要大量的数据。此外,这些模型的推断必须以极低的功率和低的延迟来完成。由于硬件限制,这大大降低了特斯拉可以提供的最大车型尺寸。
在所有公司中,特斯拉拥有可用于训练其深度学习神经网络的最大数据集。路上的每辆车都使用传感器和图像来捕捉数据,并将其乘以路上的特斯拉电动汽车数量,得出一个庞大的数据集。特斯拉将其收集数据的部分称为“车队规模的自动标记”。每辆特斯拉电动汽车都会采集一段45-60秒的密集传感器数据日志,包括视频、惯性测量单元(IMU)数据、GPS、里程计等,并将其发送到特斯拉的培训服务器。
特斯拉的模型接受了分割、掩码、深度、点匹配和其他任务的训练。由于有数百万辆电动汽车在路上行驶,特斯拉拥有大量的数据源,这些数据源都有很好的标记和记录。这使得能够在该公司的设施中进行Dojo超级计算机的持续培训。
特斯拉对数据的信念与该公司已经建立的可用基础设施相矛盾。特斯拉只使用了他们收集的数据中的一小部分。特斯拉因其严格的推理限制而过度训练其模型,以在给定的模型尺寸内实现尽可能好的精度而闻名。
过度训练小型车型会导致全自动驾驶的性能停滞不前,并且无法使用收集到的所有数据。许多公司同样选择尽可能大规模地进行培训,但他们也在使用功能强大得多的汽车推理芯片。例如,英伟达计划在2025年为汽车客户提供2000多TeraFLOPS计算能力的DRIVE Thor,这是特斯拉新HW4.0的15倍以上。此外,英伟达架构对其他型号更为灵活。