专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

自动驾驶什么时候才会凉凉，估计还要多久？

3DCV · 公众号 · · 2024-08-07 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

编辑：3DCV

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

来源： https://www.zhihu.com/question/404870865/answer/1361685672?utm_psn=1804276733828001793

作者：田渊栋

2013-14年的时候做过一阵子无人驾驶，之后就不做了。

这里主要讨论一下要实现完全无人的全自动驾驶，在机器学习基本原理上的困难之处。

自动驾驶是个很有趣的问题，它不像传统的有监督学习，不在固定数据集上算性能，它的数据集是on-policy的，就是说会随着当前驾驶策略的变化而变化。另外，并不是所有的数据都有用，对自动驾驶来说，大量数据都是单调重复的（比如说天气晴好，周围无车也没有行人），对改进行驶策略没有太大帮助。

假定一开始驾驶策略性能很差，每隔一公里就需要人工干预一次，那每一公里我们就会收集到一些重要数据，比如说事故发生前几秒的视频和雷达数据，然后我们可以用这些数据训练现在的模型，并学到更好的策略以避免事故。有了更好的策略，我们可以做到每隔十公里人工干预一次，然后把每次人工干预前的数据拿过来训练，等等。

说到这里，大家就会发现一个循环：行车策略质量越好，人工干预的频率越低，得到的有效训练数据就越少，继续改进就越难。这样就产生了如下的曲线（横轴是所花的代价，纵轴是自动驾驶的性能）：

我们甚至可以算出来它的性能增长会有多慢。令人工干预率随时间的函数是ϵ(t)\epsilon(t)\epsilon(t)。我们能获得的有效累计样本数是 N(t)N(t)N(t) ，这样我们可以得到：

这是指数衰减曲线。它的意思是每降低一半的人工干预率，所需的时间是固定的。比如说从每100公里干预一次到每200公里干预一次需要一年的工作量，那再降到每400公里干预一次又需要一年的工作量。

所以人工干预率的衰减（或者性能的提升）是非常慢的。比如说就算d=1，如果我们达到每100公里干预一次需要一年的累计工作量。那在这基础上再降低一半的人工干预率，就需要再用三年的工作量，降低成原来的四分之一就再需要十五年的工作量，等等。使用更多的车和更多的人力，可以通过加常数的方式一下子增加样本数，但趋势是不变的，更不用说增加的硬件成本和人力成本。

这样最关键的问题在于，在这条曲线拉平之前，它是否能超越真人司机的水准？以现在的趋势看起来，可能还是比较困难的。只要（1）机器学习算法还需要吃大量数据，（2）现实场景永远有各种稀奇古怪的情况，那总会有一些corner case是算法从未见过的，碰到这种情况自动驾驶系统会出什么幺蛾子，谁也不知道。像Tesla自动驾驶最近出的事故（比如说不减速撞上横停在高速上的白色货车），都是一些匪夷所思的情况，或许这种特别组合能让整个系统的感知判断出问题？目前真的不知道要怎么处理。

有人可能会说，是不是多加几个传感器就能解决问题了？我觉得很难，传感器多了有点像饮鸩止渴，一开始信号来源多了效果一下子提上去了很兴奋，但接下来部署、维护还有组内部相互间的协调成本会大幅上升，最终还是会受限于机器学习的本质问题。

像协调问题很常见，出了个人工干预的案例，每个部分都工作尚可，但就是每个地方都差一点点，最后累计的误差导致要撞人。对此，雷达组认为是视觉组的问题，视觉组认为路径规划组的问题，路径规划组认为是硬件的问题，等等，谁来负责？大家都不想动自家已经打满补丁摇摇欲坠一碰就散架的代码……还有下游实在是达不到精度要求，于是就想要改上游组的OKR，让他们的API提供更多的信息，比如说除了检测结果还要提供置信度，有了Bounding box还要segmenation，等等。这些必需的沟通会进一步拖慢整个进度。

还有很多AI上的难题，之前就有人担忧”如果有个人穿着画着stop sign的t-shirt在路上走要怎么办？“，更不用说对抗样本问题，比如说stop-sign上贴几张便签让它被识别为yield sign这种攻击[1]，或者在衣服上打印几个特别的图案就能隐身[2]之类。这些还算是视觉层面上的对抗样本。目前的驾驶环境还是比较平和的，如果等自动驾驶车变多了，会不会有策略层面上的对抗样本和策略，还很难说。

在AI能有下一步的理论突破之前，这些都是悬在大家头上的达摩克利斯之剑，随时要掉下来的。

参考

1）https://arxiv.org/pdf/1707.08945.pdf

2）https://arxiv.org/abs/1904.08653

作者：Geek

先说结论：短期落地L4自动驾驶相当困难 , 但不会凉, 还会经历多次低谷, 估计还是十年为周期的科研抗战。

自动驾驶核心难点：

看了大佬们的回答, 大部分高赞还是针对过去的一些经验进行总结，最终还是归因到感知, 规划, 高精地图量产上, 就从这三个技术方向展开说一说。

感知

当前业界普遍认为可行的感知落地方案为 = > 监督式学习＋数据闭环

根据田大佬与zhzz大佬所述, 确实, 真实世界中我们有无穷无尽的corner case, 大部分一线感知从业人员会在工作不久后体悟到一个事实, 就是这些corner case根本解不了, 如在路上爬的人、会飞的障碍物, 等等极度稀缺的样本。

即便数据闭环能尽可能的自动化corner case的学习, 但这世界的复杂度在大规模量产车上路之后, 还是会有一个非常困难的学习过程, 简单提及一下这阶段会遇到核心问题

大规模学习遗忘问题 - lifelong learning
稀缺样本不均衡问题 - unblance
通用目标检测问题 - open world detection

事实上, 以当前学术界才刚刚进入这个阶段, 工业落地接触到这部份问题, 估计还得2~3年才会踩到深水区, 当然tesla例外（当学习数据达到PB级别, 量产车几千台在路上跑, corner case库上万集）

而更长远的科研路线肯定还是走向自监督路线, 其中最有可能取得较大突破的方向在于时序的自监督学习。设想, 人在做轨迹规划时, 并不是先识别物体及其位置, 才得出此物体未来轨迹的, 而是直接感知到物体动向及其在未来特定空间存在的概率, 我们如果能够直接以自监督的方法, 得知未来空间中存在的物体的概率, 我们就能够将当前的监督式学习转化成自监督学习。

如此一来, 我们能将感知任务从目标检测、追踪、预测, 改成建模时序空间中网格被占据的概率

整体方案也就转型成 => 自监督＋数据闭环 + 少量的监督（用于人为定义的特殊场景, 如救护车、消防车）

cvpr2021 这篇工作提供了一个很好的开端。

GitHub - peiyunh/ff: Safe Local Motion Planning with Self-Supervised Freespace Forecasting, CVPR 2021

当技术真的转向这个方向发展时, 依然会发现真实场景落地困难, 但此时相比于早期的监督式学习方案已经有非常大的进展。

然而我们很快会发现, 成也激光雷达 , 败也激光雷达

激光雷达在特殊场景下的自监督方案几乎是不可行的, 一旦下雨, 监督学习可以, 但自监督方案依然会崩溃。

除非我们能写出一个学习可碰撞点、不可碰撞点的模型, 我们才可能再次突破这个难关

我认为, 在这个时间节点, 仿真的意义会真正的体现上来, 如果我们打破了仿真跟真实世界的隔阂, 仿真技术会进行大规模的降为打击, 若没有走通这道隔阂, 行业会再次陷入困境, 只能做L3+的辅助驾驶。

为什么elon musk 会说, 纯视觉方案才是走向自动驾驶的终局, 也是因为道路是设计给人类视觉开的, 其他传感器必然会有先天的缺陷, 最终我们还是会走向以图像为主的时空预测模型, 人类学习物体距离, 本质是透过触觉进行强化学习, 而工程师没办法在真实世界中进行空间碰撞, 来学习物体深度距离, tesla透过radar 巧妙的把触觉强化学习转换为深度估计 , 进行建模。

走向L4的自动驾驶方案, 必然是弱感知+ 强智能 (这里所谓的弱感知, 也是吊打当前所有落地方案的, 所谓弱感知, 是不精确要求物体的绝对位置, 更多的是空间状态概率传给下游, 让下游对各种概率进行轨迹优化)

2. 规划

规划的进展相对更慢一些, 为什么发展会这么慢, 本质原因还是因为学界业界都没有很好的优化函数。

在绝对安全的情况下, 保证体感、时间上最优

大部分情况下, 我们可以将这个过程转换成凸优化问题求解。

然而深水区在于规划问题最终会卡在博奕问题上, 而真实世界下的博奕解空间之巨大, 正常solver根本无法解出, 如果别人激进, 自车就必须保守, 别人保守, 我们就必须激进, 然而所谓的激进与保守的策略, 在轨迹规划中无穷无尽, 优化问题如果不用learning方案进行建模, 最终就会死在博奕问题上。

但一旦使用learing方案进行建模, 我们就陷入困难debug的工程问题。

德州扑克是博奕研究中近期较有突破的一个方向, 德州扑克是四轮的策略, 展开的决策树节点就已经比世界的原子还多了, 这部份的难度可想而知。

这部份要不是工业界最终就是接受现实, 舍弃rule-base , 做learning-base方案, 把learning-base 推到极致, 看能不能低于人类驾驶意外里程数一个量级, 要不L4最终还是会被博奕的corner case 压死

3. 高精地图

高精地图也正处于两个派系分裂的状态。

如果弱感知+强智能方案真的走通, 业界技术路线大概率会走向实时建图, tesla可能是一个典范

若走不通的话, 大图商会好好把握这个商业机会海薛这些自动驾驶公司一波, 就跟标注商目前海薛自动驾驶公司一样, 我不管你做不做的出来, 但你得买来试, 自建高精地图对于自动驾驶公司的成本实在太大, 根本不可能进行运维。

最后,

17世纪的人不懂未来有一个交通工具会取代马车。

19世纪的人也不懂未来会有一个交通工具会在天上飞。

甚至到20世纪, 我们才知道原本人类可以去月球。

身为一个人类, 我们要做的事并不是唱衰一个科技的可能性,

而是在一次又一次的失败中, 发现实现他的路径。

致敬所有愿意在这浪潮中, 经历一次次失败的每个工程师！

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

「 3D视觉从入门到精通」知识星球

「 3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云

自动驾驶什么时候才会凉凉，估计还要多久？

正文

作者：田渊栋

作者：Geek

「 3D视觉从入门到精通 」 知识星球

请到「今天看啥」查看全文

「 3D视觉从入门到精通」知识星球