专栏名称: 新机器视觉

最前沿的机器视觉与计算机视觉技术

如何打造自动驾驶系统？

新机器视觉 · 公众号 · · 2024-12-09 16:23

正文

在小马智行纳斯达克敲钟后，一支天才云集的队伍，创业8年，在自动驾驶领域打造出一家明星独角兽，靠的还是扎实的业务能力和领先的技术。

而小马智行的招股书，实际上也对自动驾驶技术做了一次完整又详实的科普。

根据招股书，小马智行的自动驾驶系统，可以拆解为几部分，下面来逐一了解。

传感器

自动驾驶汽车，想像人类司机一样行驶，就需要像人类司机一样，清楚地感知到路况，这就涉及到传感器：

激光雷达

激光雷达，顾名思义，是使用激光束探测汽车周围的物体，在各种光照条件下，可以实现高分辨的距离感应。

多个位置部署激光雷达，可以在各种环境和光照条件下，观测到汽车、行人、交通信号灯等等，实时生成周围环境的三维图像。

摄像头

多个高精度的摄像头，可以让车辆更全面、全方位地观察周围环境，没有重大盲点，能从中分辨、识别出障碍物，也能让交通状况的图景范围也更广泛。

雷达

雷达是通过发射无线电波的方式，实现车辆的距离与速度探测，在雨、雪、雾等恶劣天气时，相比起激光雷达和摄像头，毫米级雷达表现更出色。

小马最新第六代自动驾驶汽车模型中，采用的就是以上三种结合的多传感器方法，配备了7 个激光雷达、11 个高分辨率摄像头和 3 个远程雷达，三种传感器优劣势互补，可以更有效观测到环境。

但传感器组件中，有单一传感器出现故障该怎么办？

在这个时候，除了感知环境，汽车的准确定位也是重要数据，所以小马还采用了GNSS 天线模组、 IMU 惯性测量单元等设备。

GNSS / IMU

高精度全球导航卫星系统 (GNSS) ，和惯性测量单元 (IMU)，是和高清地图和定位模块协同工作的，可以确定汽车的准确定位。

端到端技术的软件堆栈

在招股书中，小马智行特别强调了自己的自动驾驶技术栈整体可以看成一个“大脑”，通过一整套软件模块和算法来控制车辆，这个大脑或者说AI司机，本身不受车辆平台种类限制，集成各种传感器类型和算法模块。

小马还着重强调端到端的可解释性，所以采用分段式模式，仍然包含感知、预测、规控、模拟等等模块，下面来一一详解：

端到端驱动闭环演进

首先来看小马的端到端模型，通过融合可学习度量空间，模拟车辆在真实世界的行为，并且通过智能标记和特征提炼技术，把LLM的知识库迁移到端到端模型中，扩充原本有限的资源，方便系统处理复杂的驾驶条件。

而没做标记的数据，会通过自监督解释模型，继续训练世界模型和端到端模型，解释端到端的推理结果，包括感知结果、预测结果、做出的具体决策和详细的场景描述等等。

这种全面的可解释性，可以更深入地了解自主系统的功能和决策过程。

在这个过程中，为了保障适应性和准确性，小马智行加入了可学习优化模型，集成基于模型方法和优化方法，既具备数据驱动的特性，也保留了可控性。

另外，想要真正实现L4级的系统，只有当前和过去的数据预测未来是不够的，真正的挑战，还是在于如何与现实世界的频率相匹配，模拟长尾场景和行为，以实现开发的不断迭代。

因此，需要创建一个高保真的环境，方便模拟现实场景。这就是小马的闭环模拟引擎，PonyWorld。

PonyWorld在视觉细节和动态响应方面，精确复制了真实世界条件，这可以让系统突破功能的界限，模拟关键场景，比如突然出现的孩子、未盖的沙井，或前方车辆掉落的碎片等等。

这个系统会使用过去事件的记录和既定的未来事实，对各种未来场景进行合理的推断。

当自动驾驶汽车的未来行动与这些记录一致时，真值条件生成模型会如实反映记录中的未来；相反，当未来行动偏离记录时，模型会重建与记录不同的关键行为特征，以便保持可信度。

感知与预测

车辆自动驾驶的过程，需要“虚拟驾驶员”能够“看到”汽车周边的环境，并且及时做出反应，这就需要具备感知和预测能力。

小马智行的感知和预测模块，采用的都是多模态、多任务和快速调整的大型Transformer框架。

在感知方面，采用的是快速学习技术，集成点云、图像和电磁响应等各种模态的输入，可以基于单一模型，准确检测各种不同类型的物体，并且大幅降低延迟。

通过处理传感器组件收集的数据，感知模块自动完成物体的分割、检测、分类、跟踪，以及场景的理解。

出现极端、恶劣天气，肉眼难以看清时，这种能力让自动驾驶车辆在行驶过程中，依然能无障碍感知环境，因此会比人类驾驶员表现得更好。

为了进一步提升感知模块的性能，感知模块中加入了深度学习技术处理数据，并且利用启发式方法，也就是人类知识和常识，在决策层添加确定性数学公式和规则，以此弥补深度学习技术中，模拟与现实之间的差距。

在预测方面，预测模块采用多模态深度学习模型，融合了感知观察和人类常识的信息。

这些常识，是从交通规则和人为设计的提示中提取，以知识图谱的形式表示，而Transformer结构，会捕获不同模态之间的相关性。

根据一系列数据，预测模块会给出判断。这些数据同样围绕传感器数据展开，又结合了感知模块的输出数据，以及类似道路代理的历史决策经验。

考虑到可能出现意外情况，在记录常规数据以外，数据集还针对每种情况，给预测模块添加了额外的可学习和针对性提示。

预测模块和感知模块类似，也采用了深度学习和启发式方法，为每个观测到的道路代理提供一条预测轨迹，并且会计算出发生的概率，为其他模块的工作提供参考。

规划与控制

成功感知并预测数据之后，就要根据输入的数据，进行规划和执行操作了。

关于规划和控制模块，小马是靠AI来创建的，这里面涉及到博弈论的方法。

在模拟和分析车辆与其他道路主体间的相互作用时，举个例子，如果自动驾驶汽车和有人驾驶汽车同时接近十字路口，博弈论会帮助自动驾驶车辆，选择最佳路线、平稳加减速，或者适当变道，确定一个最佳的行动决策，很适用于高峰时段、拥堵道路的场景。

同时，为了让驾驶行为和人类更接近，决策器中使用了强化学习人类反馈 ( RLHF ) 的调整机制。

利用人类贴标员，获取在各种情况下，有关自动驾驶系统的安全性、舒适性和效率的反馈，这些反馈会用于训练奖励函数，让这个函数在更大的数据集上调整深度学习决策。

硬件以及整车集成

了解完软件，接下来就是自动驾驶的汽车硬件，以及如何把每一部分整合在一起了。

计算系统

从传感器收集到的数据，是由计算系统处理，通过算法实时运行来实现自动驾驶的。而车载计算单元，就负责处理传感器收集的数据。

小马智行的自动驾驶计算单元（ADCU），运用的是异构计算架构，包括中央处理单元（CPU）、图像处理单元（GPU），现场可编程门阵列（FPGA）和微控制器单元（MCU），是一个完全汽车级的计算平台，可以方便定义完全适配自动驾驶应用的计算架构。

利用ADCU计算平台，小马可以通过微调，保持性能和资源的消耗平衡。如果出现新技术，ADCU也可以更轻松地进行调整和升级，具备很强的灵活性和可扩展性。

车辆集成

如何打造自动驾驶系统？

正文

端到端技术的软件堆栈

请到「今天看啥」查看全文