专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

端到端的自动驾驶会取代Apollo、Autoware这类框架吗？

计算机视觉工坊 · 公众号 · · 2024-10-06 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

作者 | ch1nix 编辑 | 自动驾驶之心

原文链接：https://www.zhihu.com/question/610087746/answer/3621160364

1. 端到端和规则

有一个典型的场景：在北上广的快速路的限时段公交车道，自驾系统如何能像人类一样，限制的时间段避开，非限制时段高效利用？

这需要非常精确的识别能力，需要系统学习如何识别文字，而现在大部分模型是没有识别文字的能力的，一部分是靠经验，另一部分是依靠感知，更多的是依靠经验来判断，比如说：旁边如果有车驶入公交车道，那系统也会考虑跟随驶入，但如果一直没有感知到车辆驶入，系统也就不会考虑变道至公交车道，但经验里的噪声会很多，不是最终的解决方案，最终还是需要提高识别能力来解决这个核心场景。

有人可能会说，那在端到端里面写一条规则不就行了，比如告诉系统：什么时候能走，什么时候不能走，不就能够解决这个问题了，为什么一定要把规则全都删除掉？

首先，端到端模型里确实是有规则的，但其实规则和端到端的初衷是完全相反的，如果不断地加规则的约束，这本身就是违背了端到端存在的意义。其次，在同一个城市，可能公交车道的禁入规则是固定的，比如早上7-9点（早高峰），晚上5-7点（晚高峰），但也存在一些其他不一样的规则，比如上海71路公交车，什么时间段都是不让走的，还有专用的红绿灯，中国这么多城市存在各种各样的规则，让工程师一个一个去加规则，是很难的。

还有AEB，是有专门的法规和测试标准的，OEM只需要按照测试标准来搞，比如说：判断自车和前车的角度，为了提高测试通过率，减少误刹的几率，只需要在规则里约束：target车角度发生抖动，或者target车大于某个度数就不刹车。

但是，在实际的使用场景中，车的类型是复杂多样的，甚至有一些奇形怪状的车（比如cybertruck），感知的object框一直都是抖动的，那AEB现在是刹车还是不刹车？所以说如果让工程师写规则、优化规则，工作量实在是太大了，这对于AD来说，效率很低。

2. 为什么要搞端到端

2.1 高速和城区

为什么现在大家都在ALL in端到端？最开始怎么不用？因为：原来考虑高速NOA的时候，场景简单。

高速是封闭道路，系统大部分时间只需要关注前面三辆车：①自车前面的target车②自车左边车道前面的target车③自车右边车道前面的target车。这三辆车建模，然后再写个规则，结束（说起来简单，但代码还是有几万行的）

现在高速NOA已经比较成熟了，而到了城区，场景就很复杂了：需要考虑主动安全，处理复杂场景（比如路口，你根本无法预测会冲出来什么车、什么人，以什么样的角度、速度冲出来，这都是未知的），如果这个时候还是以规则为主，第一个问题还是效率，而另一个问题是规则在实车上的效果，并不是很好，因为你没有办法覆盖所有的Corner Case。

2.2 模型的统一

自动驾驶的发展最早可以追溯到20世纪80、90年代，那个时候受限于算法模型能力，只能把自动驾驶拆分成各个模块，就好比工厂压铸，工艺能力不行，就先分成小块铸造再焊接成大件，而现在工艺水平提高了，也就是一体式压铸，大大的提高了制造效率，也减少了人力，自动驾驶也是一样的，如今的芯片算力和算法模型性能已经足够支撑自动驾驶把各个模块合起来，所以端到端是通过统一模型，提高效率，既包括了时间也包括了人。

这一点也可以通过AI的发展看出来，AI算法发展本质就是：①更好的效果②更好的泛化性。

更好的效果，其实很好理解，比如原来识别物体，机器没有人做的好，而现在几乎和人差不多，甚至比人做的更好。AI从最开始的不如人，到现在和人差不多，再超过人，这就是发展AI的目标之一。

而更好的泛化性，其实就是指用同一个方法来解决不同领域的问题，也就是统一的思想。比如感知的图像识别（判断是什么类别）和物体检测（判断是什么物体），原来都是不同的算法和模型，而现在都在做统一，将所有的感知类任务都融合起来，而现在正在做的另一个事就是把图像和语音类也融合起来。

所以，对于自动驾驶来说，就是希望能够用同一套框架去实现，无论是自动驾驶、机器人、机器狗、无人机，都是希望用端到端来实现统一。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉知识星球

「 3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具