专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

最大规模！中科院&理想：探究数据规模对端到端智驾模型在不同场景中泛化的影响

计算机视觉工坊 · 公众号 · · 2024-12-12 07:00

正文

来源：深蓝AI

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

端到端自动驾驶范式因为其可扩展性而受到广泛关注。然而，现有方法受限于真实世界数据规模，阻碍了对端到端自动驾驶相关规模化定律的全面探索。针对这一问题，中国科学院自动化所赵冬斌研究员团队与理想汽车“端到端”量产部门夏中谱团队进行了合作探索，团队收集了各类真实驾驶场景和行为数据，对现有基于模仿学习的端到端自动驾驶范式的规模化定律进行了深入研究。具体而言，该团队共收集了 23 种不同场景，约 400 万次演示，总计超过 3 万小时的驾驶视频。在严格的评估条件下，通过共计 1,400 次不同的驾驶演示（开环 1,300 次，闭环 100 次）进行开环评测和闭环仿真评测。通过实验分析发现：( 1) 轨迹拟合的开环性能与训练数据量呈幂律关系，闭环性能在200万次数据量时出现性能拐点； (2) 长尾数据量的少量增加可以显著提高相应场景的性能； (3) 适当的数据规模化可以为模型带来新场景组合泛化的能力。团队的研究结果首次通过大规模真实场景数据和实验，展现了数据规模化为端到端模型在不同驾驶场景中的泛化的关键作用，为端到端在开放世界的量产部署提供了支撑。

论文信息

论文题目： Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving
论文发表单位：中科院自动化所深度强化学习团队，理想汽车
论文地址： https://arxiv.org/pdf/2412.02689
项目仓库： https://github.com/ucaszyp/Driving-Scaling-Law

1 引言

端到端自动驾驶算法将自动驾驶中的感知、预测、规划等任务纳入一个完全可微的框架中。它将原始传感器数据作为输入，输出可能的规划轨迹，这种方法可以数据驱动的方式优化整个系统，因而受到了学界和业界广泛的关注。

然而，当前的自动驾驶社区面临一个巨大的挑战：现实世界数据的匮乏，使得端到端自动驾驶中的数据规模化定律尚未得到充分研究。如表 1 所示，现有的开源真实数据集规模通常在千级，远小于语言模型或生成模型中动辄百万甚至十亿级的视觉 - 语言数据。

表1 ONE-Drive和现有的开源数据集的对比

对于端到端自动驾驶的安全落地，在数据规模化定律 三个关键问题 值得被探索：

端到端自动驾驶领域是否存在数据规模化定律？
在数据规模化的过程中，数据数量如何影响模型性能？
数据规模化能否赋予自动驾驶算法在新场景中的泛化能力？

图1 数据采集车7个摄像头的位置

2 研究工作

2.1 数据准备

为了解答这三个问题，团队收集并标注了一个名为 ONE-Drive 的百万级数据集，其中包含超过 400 万次驾驶演示（约 30,000 小时）的现实世界数据，数据源自多个城市的多样道路环境。图1展示了 ONE-Drive 的采集配置，它包括7个摄像头和一个128线的激光雷达。图 2 展示了 ONE-Drive 与现有的开源数据集 nuScenes 和 nuPlan 的对比， (a) 、 (b) 两部分展示了它有更丰富的场景和动作。 (c) 对比了它与其他两个开源数据集的轨迹热力图，展现了 ONE-Drive 规划轨迹的多样性和挑战性。

图 2 ONE-Drive 数据集与 nuScenes 和 nuPlan 的对比

在此数据集的基础上。团队依据交通条件和智能体的动作将场景分为 23 种类型。数据集中场景类型的分布如图 3 所示。

图 3 ONE-Drive 数据集中 23 种场景类型及分布

2.2 模型准备

基于 PARA-Drive[1] ，团队提出了一种易于扩展的端到端自动驾驶网络。它的结构如图 4 展示。它分别提取多视角图像的特征和点云特征，随后利用前投影的方法将两种模态的信息在鸟瞰图（ BEV ）空间融合。随后它按照时序提取过去的 BEV 特征和相对位姿并进行时序融合以增强历史信息。随后， BEV 特征通过并行的解码器通过 Online Map 、 4D Occupancy 、 Static Object Detection 、 Prediction 和 Planning 等 5 个任务进行训练。在自车规划中，利用多层感知器将从导航中获取的红绿灯、道路级别的路线（为了应对真实世界规划对贴合导航的需求）等导航信息和自车运动状态编码作为规划的上下文信息，最终输出多模态的规划轨迹和对应的分数。在评测中，分数最高的轨迹将被采取作为最后的规划执行。

图 4 模型结构图

2.3 评测准备

团队采取开环和闭环两种评测方式，开环评测旨在评估预测轨迹与专家轨迹的距离。闭环评测采用基于 3D-GS 场景重建的仿真器。具体来说，对每个测试场景进行 3 条不同轨迹的数据采集，轨迹间隔 3 米。利用这些采集数据，团队基于算法 StreetGaussians[2] 重建了测试场景，它可以 10Hz 的频率进行图像渲染仿真。闭环仿真中计算和实车部署密切相关的安全、效率、导航、规则、舒适度五个指标，并按照如下方式加权计算驾驶分数：

值得注意的是，由于重建场景的限制，开环评测与闭环评测的场景不完全相同。开环评测有约 1300 个驾驶演示组成，而闭环评测仅重建约 100 个场景。后续的工作中团队会将评测对齐，更公平地探索不同评测方式下的规模化定律。

2.4 实验准备

基于 ONE-Drive 数据集，团队进行均匀下采样得到数据量为 200 万、 70 万、 5 万、 1 万的子集作为实验数据准备。不同数据量的模型进行训练直到收敛，训练模型及资源如表 2 所示。

表 2 不同数据量模型及训练资源

3 实验与结果

本文在大规模真实场景的闭环规划平台进行闭环规划实验，以评估性能，实验结果如下。

3.1 开闭环性能的差异

如图 5 所示，团队进行了开环闭环两种评测，并绘制了评测指标和训练数据量的关系图。其中 5(a) 是开环评测的关系图，横纵坐标均为对数坐标。 5(b) 和 5(c) 是闭环评测图，横坐标为对数坐标，纵坐标为线性坐标。如图 5(a) 的线性拟合，团队发现在开环评测中，模型拟合专家轨迹的性能与训练数据大致呈现幂律关系。如图 5(c) 所示，在闭环评测中，数据规模化定律不再是幂律关系。驾驶分数首先快速增长，随后增长放缓。在 200 万数据量时形成一个拐点。图 5(b) 中展示了闭环中每一项的评分。

图 5 数据规模化定律

3.2 数据数量增长对模型性能的影响

团队进一步探讨在数据规模化的过程中，数据量增加如何影响模型的性能以及如何利用这一规律扩增场景数据。为了研究这个问题，团队依照 2.1 节数据准备中的方法将数据集划分为 23 种类型，并选择了两种数据量少、模型表现差的长尾场景作为研究对象，开环评测模型的在两种场景中的轨迹拟合能力。在研究中保持数据总量不变，逐步增加这两种场景的数据数量。如表 3 所示，随着长尾数据量扩增至约 4 倍时，模型在该场景的性能提升约 20% 至 30% 。即通过百或千级别的长尾场景数据扩增，即可在该场景有较大的性能提升。

表 3 数据量扩增实验表格

3.3 场景的组合泛化

最后，团队探讨数据规模化与端到端驾驶泛化性的关系。泛化能力被认为是自动驾驶技术于真实世界安全部署的关键。为此，团队将数据集中 23 种场景中的 2 种：高速绕行 HIGHWAY_NUDGE_OBS 和路口待转 WAIT_TURN 作为测试场景， 利用剩下的 21 种作为训练数据 。团队在5万、70万、200万数量的数据上进行了实验。值得注意的是，在选择这两个类别的测试数据时采用了严格的筛选策略，以确保每个场景与其他场景类型不重叠。图6 展示了组合泛化的定量结果并展示了与这两种场景相似的场景以便比较。比如对于高速绕行 HIGHWAY_NUDGE_OBS ，类似的对比场景为高速行驶（左右换道）、城区绕行（障碍物、低速智能体）。通过实验结果观察到：（ 1 ）在 5 万个示例上训练的模型在两个测试场景中与专家轨迹的位移误差比类似场景更大，表明小规模训练数据的模型泛化能力不足。（ 2 ）随着训练数据增加到 200 万（绿色示例数量），两个测试场景的轨迹与其他场景之间的轨迹误差迅速缩小。在高速场景上的表现甚至超过了参与训练的其他场景。（ 3 ）通过分别从训练数据中学习高速行驶和低速绕行，模型获得了泛化到高速绕行场景的能力；通过学习转弯和红灯排队，模型发展出了泛化到路口待转场景的能力。

图 6 组合泛化定量实验

更进一步，图7中展示了模型预测轨迹的可视化。绿色框中的鸟瞰图代表使用 5 万个示例训练的模型的规划结果，这些示例在训练时不包含高速绕行 HIGHWAY_NUDGE_OBS 和路口待转 WAIT_TURN 场景（图例中的 "50K + Unseen" ）。蓝色框中的鸟瞰图代表使用 200 万个示例训练的模型的规划结果，这些示例同样在训练时不包含高速绕行 HIGHWAY_NUDGE_OBS 和路口待转 WAIT_TURN 场景（图例中的 "2M + Unseen" ）。橙色框中的鸟瞰图代表使用 200 万个示例训练的模型的规划结果，这些示例包含 HIGHWAY_NUDGE_OBS 和 WAIT_TURN 场景（图例中的 "2M + Seen" ）。可视化的分析揭示了适当增加训练数据的规模使模型能够实现对新场景的组合泛化。这种增强的泛化能力使模型在这些新场景中的表现可以与专门训练的对应模型相媲美。团队的发现强调了数据规模在提高模型在多种自动驾驶环境中的适应性和鲁棒性方面的关键作用。

图7 组合泛化定性实验

最大规模！中科院&理想：探究数据规模对端到端智驾模型在不同场景中泛化的影响

正文

1 引言