专栏名称: 新机器视觉
最前沿的机器视觉与计算机视觉技术
目录
相关文章推荐
田俊国讲坛  ·  【2月22-23日】心智突围工作坊第九期(北 ... ·  昨天  
HSE集结号  ·  【PPT】员工安全行为养成精品培训课程 ·  2 天前  
HSE集结号  ·  【PPT】员工安全行为养成精品培训课程 ·  2 天前  
田俊国讲坛  ·  田俊国:在人际关系中保持最大限度的独立 ·  2 天前  
田俊国讲坛  ·  【2月26日】第32期《10天非凡心力训练营 ... ·  3 天前  
51好读  ›  专栏  ›  新机器视觉

如何打造自动驾驶系统?

新机器视觉  · 公众号  ·  · 2024-12-09 16:23

正文

在小马智行纳斯达克敲钟后, 一支天才云集的队伍,创业8年,在自动驾驶领域打造出一家明星独角兽,靠的还是扎实的业务能力和领先的技术。

而小马智行的招股书,实际上也对自动驾驶技术做了一次完整又详实的科普。

根据招股书,小马智行的自动驾驶系统,可以拆解为几部分,下面来逐一了解。


传感器

自动驾驶汽车,想像人类司机一样行驶,就需要像人类司机一样,清楚地感知到路况,这就涉及到传感器:

  • 激光雷达

激光雷达,顾名思义,是使用激光束探测汽车周围的物体,在各种光照条件下,可以实现高分辨的距离感应。

多个位置部署激光雷达,可以在各种环境和光照条件下,观测到汽车、行人、交通信号灯等等,实时生成周围环境的三维图像。

  • 摄像头

多个高精度的摄像头,可以让车辆更全面、全方位地观察周围环境,没有重大盲点,能从中分辨、识别出障碍物,也能让交通状况的图景范围也更广泛。

  • 雷达

雷达是通过发射无线电波的方式,实现车辆的距离与速度探测,在雨、雪、雾等恶劣天气时,相比起激光雷达和摄像头,毫米级雷达表现更出色。

小马最新第六代自动驾驶汽车模型中,采用的就是以上三种结合的多传感器方法,配备了7 个激光雷达、11 个高分辨率摄像头和 3 个远程雷达,三种传感器优劣势互补,可以更有效观测到环境。

但传感器组件中,有单一传感器出现故障该怎么办?

在这个时候,除了感知环境,汽车的准确定位也是重要数据,所以小马还采用了GNSS 天线模组、 IMU 惯性测量单元等设备。

  • GNSS / IMU

高精度 全球导航卫星系统 (GNSS) ,和惯性测量单元 (IMU),是和高清地图和定位模块协同工作的,可以确定汽车的准确定位。

端到端技术的软件堆栈

在招股书中,小马智行特别强调了自己的自动驾驶技术栈整体可以看成一个“大脑”,通过一整套软件模块和算法来控制车辆,这个大脑或者说AI司机,本身不受车辆平台种类限制,集成各种传感器类型和算法模块。

小马还着重强调端到端的可解释性,所以采用分段式模式,仍然包含感知、预测、规控、模拟等等模块,下面来一一详解:

  • 端到端驱动闭环演进

首先来看小马的端到端模型,通过融合可学习度量空间,模拟车辆在真实世界的行为,并且通过智能标记和特征提炼技术,把LLM的知识库迁移到端到端模型中,扩充原本有限的资源,方便系统处理复杂的驾驶条件。

而没做标记的数据,会通过自监督解释模型,继续训练世界模型和端到端模型,解释端到端的推理结果,包括感知结果、预测结果、做出的具体决策和详细的场景描述等等。

这种全面的可解释性,可以更深入地了解自主系统的功能和决策过程。

在这个过程中,为了保障适应性和准确性,小马智行加入了可学习优化模型,集成基于模型方法和优化方法,既具备数据驱动的特性,也保留了可控性。

另外,想要真正实现L4级的系统,只有当前和过去的数据预测未来是不够的,真正的挑战,还是在于如何与现实世界的频率相匹配,模拟长尾场景和行为,以实现开发的不断迭代。

因此,需要创建一个高保真的环境,方便模拟现实场景。这就是小马的闭环模拟引擎,PonyWorld。

PonyWorld在视觉细节和 动态响应 方面,精确复制了真实世界条件,这可以让系统突破功能的界限,模拟关键场景,比如突然出现的孩子、未盖的沙井,或前方车辆掉落的碎片等等。

这个系统会使用过去事件的记录和既定的未来事实,对各种未来场景进行合理的推断。

当自动驾驶汽车的未来行动与这些记录一致时,真值条件生成模型会如实反映记录中的未来;相反,当未来行动偏离记录时,模型会重建与记录不同的关键行为特征,以便保持可信度。

  • 感知与预测

车辆自动驾驶的过程,需要“虚拟驾驶员”能够“看到”汽车周边的环境,并且及时做出反应,这就需要具备感知和预测能力。

小马智行的感知和预测模块,采用的都是多模态、多任务和快速调整的大型Transformer框架。

在感知方面,采用的是快速学习技术,集成点云、图像和电磁响应等各种模态的输入,可以基于单一模型,准确检测各种不同类型的物体,并且大幅降低延迟。

通过处理传感器组件收集的数据,感知模块自动完成物体的分割、检测、分类、跟踪,以及场景的理解。

出现极端、恶劣天气,肉眼难以看清时,这种能力让自动驾驶车辆在行驶过程中,依然能无障碍感知环境,因此会比人类驾驶员表现得更好。

为了进一步提升感知模块的性能,感知模块中加入了深度学习技术处理数据,并且利用启发式方法,也就是人类知识和常识,在决策层添加确定性数学公式和规则,以此弥补深度学习技术中,模拟与现实之间的差距。

在预测方面,预测模块采用多模态深度学习模型,融合了感知观察和人类常识的信息。

这些常识,是从交通规则和人为设计的提示中提取,以知识图谱的形式表示,而Transformer结构,会捕获不同模态之间的相关性。

根据一系列数据,预测模块会给出判断。这些数据同样围绕传感器数据展开,又结合了感知模块的输出数据,以及类似道路代理的历史决策经验。

考虑到可能出现意外情况,在记录常规数据以外,数据集还针对每种情况,给预测模块添加了额外的可学习和针对性提示。

预测模块和感知模块类似,也采用了深度学习和启发式方法,为每个观测到的道路代理提供一条预测轨迹,并且会计算出发生的概率,为其他模块的工作提供参考。

  • 规划与控制

成功感知并预测数据之后,就要根据输入的数据,进行规划和执行操作了。

关于规划和控制模块,小马是靠AI来创建的,这里面涉及到博弈论的方法。

在模拟和分析 车辆与其他道路主体间的相互作用时,举个例子,如果自动驾驶汽车和有人驾驶汽车同时接近十字路口,博弈论会帮助自动驾驶车辆,选择最佳路线、平稳加减速,或者适当变道,确定一个最佳的行动决策,很适用于高峰时段、拥堵道路的场景。

同时,为了让驾驶行为和人类更接近,决策器中使用了强化学习人类反馈 ( RLHF ) 的调整机制。

利用人类贴标员,获取在各种情况下,有关自动驾驶系统的安全性、舒适性和效率的反馈,这些反馈会用于训练奖励函数,让这个函数在更大的数据集上调整深度学习决策。


硬件以及整车集成

了解完软件,接下来就是自动驾驶的汽车硬件,以及如何把每一部分整合在一起了。

  • 计算系统

从传感器收集到的数据,是由计算系统处理,通过算法实时运行来实现自动驾驶的。而车载计算单元,就负责处理传感器收集的数据。

小马智行的自动驾驶计算单元(ADCU),运用的是异构计算架构,包括中央处理单元(CPU)、图像处理单元(GPU),现场可编程门阵列(FPGA)和微控制器单元(MCU),是一个完全汽车级的计算平台,可以方便定义完全适配自动驾驶应用的计算架构。

利用ADCU计算平台,小马可以通过微调,保持性能和资源的消耗平衡。如果出现新技术,ADCU也可以更轻松地进行调整和升级,具备很强的灵活性和可扩展性。

  • 车辆集成






请到「今天看啥」查看全文