专栏名称: 智能车情报局

聚焦智能汽车关键技术与创新产品

地平线 Horizon SuperDrive 最强解析：优雅从容——下一代城区领航新范式

智能车情报局 · 公众号 · · 2024-05-11 16:36

正文

导读：

4月27日，地平线联合智猩猩策划推出的地平线「你好，开发者」北京车展特别活动成功举行。此次活动， 地平线自动驾驶系统架构师刘景初 就《 优雅从容——下一代城区领航新范式 》这一主题进行了深入讲解和答疑互动。

本文是此次活动主讲环节的实录整理。如果对活动的全程回放，以及Q&A有需求，可以点击 阅读原文 前去观看。

刘景初 ：各位朋友下午好，我是地平线 SuperDrive 产品的架构师刘景初，今天借北京车展这个机会，分享一下我们地平线在高阶自动驾驶一年以来新的思考和实践。

刘景初，地平线自动驾驶系统架构师

今天的主题，在产品构型之初，其实也是想了很久我们应该做一个怎样的系统？最后，我们选的词“优雅从容”——一般不常用来形容一个machine。但是，待会等我讲到相关内容时，大家可能就会理解，为什么我们需要这样一个性格的系统，才能真的做出一个足够好用、大家爱用的城区领航智驾产品。

高阶智驾市场现状与趋势

NOA这个名词大家都已经很熟了，渗透率也在逐年升高。

基本上，在价格稍高的车型上，NOA搭载率很高了，已经成了标配。如果在价钱稍高的车型上不带，大家可能就会觉得这个车型和别的车型相比，智驾功能方面有点落后，从而NOA配置慢慢变成了一种必需品。

但城区NOA比赛可以说才刚刚开始。从23年第一批车企在车上量产城市NOA产品以来，已经有很多用户在路上试乘过，有很多功能在各个城市都已经开通。

但大家普遍试下来会发现一些很典型的待改进的地方：

一是系统不成熟需要人高频接管 。目前系统还是处于蹒跚学步的状态，消费者是抱着尝鲜、支持新品的态度看着它 show off一下，实在不行会给它兜个底。

二是用户付费意愿低 。除非是标配，但凡要为它付钱，消费者会想现在的阶段值不值得。

三是功能有待优化 。还有很多功能连贯性不够强，没法做到从a点到b点可以一直使用。

如果把整个现状套用到一个新技术在整个产品化过程中的生命周期模型里面，其实刚刚处于最起点。在一个新技术扩散的过程中，最起点的时候会有一些先锋用户会为它买单，但还不够。

如果让它成为最终所有人都能用到的产品，中间还有几步要走：

第一步是先要达到一定的渗透率 ， 比如6%的渗透率 ， 让更多的人去愿意用它 ，之后再逐渐达到更高的渗透率。尤其要跨越一个鸿沟，让更多人觉得这个系统对我来说是有用的，而不是一个玩具，在某些时候真能帮到我。甚至要让一些用户觉得这个系统是真的好用，比自己开的强，真的愿意把方向盘交给它控制。只有跨过了这道坎，我们的系统才能往后走。有很多技术没有跨过这道坎就挂了，其实也是一件很可惜的事情。

为了能让这项技术继续往后走，我们的观察，如果要刻画一下是如下图：

指标上面，左边是现状，右边是下一步需要达到的状况。城区道路的MPI接管要翻几倍；城区快速路的MPI接管基本上也翻了4-5倍；高速路的MPI接管也翻了几倍，因为场景更简单，甚至是提升了一个数量级。

第二步是城市NOA大规模量产 。智驾系统需要提升性能，达到用户感知性能的状态是接管率足够低，只有用户觉得大部分时候它是安全的，才愿意把方向盘交给它。另外，作为一个产品来说，用户意识到它有用、好用，并愿意为它付钱，才是可持续的。其实达到这样的状态时，竞赛才刚刚开始。因为所有的系统都是才踏进这个门，并且发现这是一件很难的事情。

第三步是进入主流市场 。最终我们通过不断地优化，把成本降到足够低，使其变成一个主流产品。

抽象化这个过程，我们认为有三个阶段：

第一阶段要达到“可用” 。大家觉得物理上它是安全的，虽然磕磕绊绊，但它不会撞车。

第二阶段是“好用” ，在某些场景下真的能帮到我。最重要的一点是要有心理安全感，而不止是物理安全感。我心里虽然知道它不会把我带到沟里面，但是不代表开车的过程中不会某些时候手突然一攥，感觉到有些操作稍微有点危险。它需要一种拟人化的操纵方法，在开车的过程中，我们能够对它的行为有一定预期，没有太多行为上的意外。就像我们自己开车一样，可以把所有情况都处理了，让我们觉得好用。

第三阶段是真正“爱用” 。这个阶段意味着它会有更多定制性，更贴近每个人、每个场景的需求，在使用的过程中可以逐渐跟人融合，就像一个人的拓展状态，可以让消费者放心地使用、自如地使用，并且爱上智驾功能。这时的智驾系统会隐于幕后，就像是手机里面的通话功能，陪伴用户每刻每程。不仅如此，这个阶段的智驾系统还要affordable，成为每个人都配得起的智驾应用。

Highway（高速）上的Pilot产品应该很多人都体验过，已经过了可用的门槛了，可能部分已经接近好用了。当你上班的路上开个会，再听个小曲，还是比较享受的，上班路上还能放松一下。

但是，城区智能驾驶系统显然还没有达到用户眼中的“可用”状态。我们把它简单总结成四个表现：

1. 怂，拥堵更添堵，导致体验接管。

有时候很怂，尤其是在路口的时候，恨不得给它一脚油，过路口的时候基本不想用。而直道上，有无NOA又没什么区别，毕竟都是顺着道开。

2. 莽，抢行太冲动，导致安全接管。

有的时候又很莽，当真的博弈时，有时候系统会突然抢行，出乎意料。

3. 急，为了快速开城，系统可用性下降。

很多友商也很急。开城这个词大家都见过，但开城却并不能保证系统性能在所有城市都维持同样的水准。这会导致早开的地方大家用的比较爽，有一定的口碑。但是越开越有更多的Corner Case，大家可能会对整个系统的感知有断崖式下降。

4. 贵，不利于功能普惠与大规模市场落地。

用不起的东西哪怕做出来了，也是镜花水月。要做到足够的便宜，让每个人都能用得起的科技产品，才是好产品。

现在的系统基本上是Passive和Aggressive的状态。Passive状态，就是但凡有个人，系统就卡住不动了。而Aggressive状态，就是有的时候我们作为驾驶员时明明知道旁边有危险应该等，但它突然“自信地”来了一脚油门，冲动抢行。

下一代高阶智驾系统的挑战

作为一家科技公司，我们肯定要去想什么是一个可达成的路径。我想从技术视角和用户视角两个角度分析一下这个问题的解决维度。

从技术角度来说，是两个词：Scale Up、Scale Out。

Scale Up指的是通过无限堆料的方式，能够让一个系统在一个特定、受控小的ODD范围内性能更优。典型就是Robotaxi，在一个封闭的地方，例如园区、港口，通过极致堆料和极致调优，智驾功能加TeleOps(远程操控)就能够实现无人驾驶。

另外一个维度是Scale Out，就是大家期望中的开城，是在ODD无限扩展的情况下，把车随便扔到一个地方，功能都能用。而现在，能做这件事的主要还是高速单车道这样的简单场景。

而我们要做一个好的城区NOA产品，显然要同时做到这两点。因为在城市里，不可能限制只在某条路上开，肯定要让大家也能在野生环境里去用这个系统。首先它隐含的就是Scale Out，再加上开城，因为所有城市都要开；Scale Up也是，因为城区是所有智驾场景的母场景，是场景浓度最丰富的区域。如果没有足够的性能上限，那它在城市里就是一个不好用的产品。

从用户的语言来说，用户可感知到的一个是MPI，就是Scale Up。另外一个就是ODD，用户能在越来越多的地方使用智驾系统。ODD的扩展，意味着想去哪个地方，随便按下激活键就能进功能，而且性能是特别拟人的，和老司机开车的状态一样，这才是我们最终想做的系统。

优雅从容的智驾系统

Horizon SuperDrive

我刚才不断地在重复拟人化，为什么一直在强调这一点呢？

一方面是好用的智驾系统一定是有拟人的驾驶体验 ，这也是我们在城区智驾实践过程中总结出来的。

道路不是我们一个人用的，而是一个公共场所。虽然我们自己是做智驾系统，但路上大部分车都是人开的，人有自己的预期、习惯，而且交通基础设施都是为人设计的。虽然我们做的是单车系统，但驾驶本身是群体行为，不是单车行为，那就意味着如果真的想做到安全、高效，就一定要像路上其他老司机一样开车。哪怕我们做得很好，但如果是一个很机械的、很不像人的体验，在路上也会让别人产生非预期行为，因为别人不知道你要干什么。

另外一方面就是系统行为需要符合用户的心理预期 ， 且满足社会惯例 。

因为我们是在方向盘后面在supervise这个车的人，我们当然希望尽量少去介入，尽量少有意外，但这个事情的基础是我可以预期它的行为，没有太多预期之外的行为。它能像人一样思考，人怎么动作它也怎么动作，这才是一种更好地人机交互行为。

所以， 在拟人这件事情上 ， 是至关重要的 。

但拟人这个词还是比较空泛。我们会提取什么样的人是我们想学习的人，因为人也是各种各样的，司机也有各种各样的司机。有赛车手型的、有谨小慎微型的新手司机，也有不光嘴里能聊、驾驶风格也激进的出租车司机，还有领导们坐在车后面会觉得很舒服的国宾司机。

我们想做的系统其实是一个 “优雅不怂 ， 从容笃定” 的系统。

“优雅”意味着它会更平顺地处理很多场景，“不怂”是不会为了安全而不去做一些人会做的博弈行为，我们也会通过和其他交通参与方协作博弈，达到高效丝滑的驾驶状态。

“从容笃定”更多的是人能感知到的车的状态，它不会很犹豫、纠结，不会出现方向盘狂摆，自车摇摇晃晃，不知道自己在干什么的情况。它会像人一样，在一个相对长的时间周期里通过思考，明白应该怎样去行动，在一个更紧的闭环里通过很平顺的方式把这件事完成了。你能看到的是谋定而后动的状态，而不是一个在路上没有事先的想法、随机应变的reactive系统。

我们希望通过优雅从容的行为，使其能够有更精细的道路表现，比如绕障、转弯、让行、走位。当车在变道插空的时候，不管是有路权还是弱路权都有更好的通过性。我们希望通过这种方式打造一个能力更全面的“六边形战士”，这就是我们最主要的proposal。

如果能做到优雅不怂，从容笃定，那么这套系统一定会更好用。

接下来我们讲一些典型的场景。

首先是路口转弯遇到侧后方VRU（Vulnerable Road User）的城区行驶高频场景。地平线SuperDrive系统不会在路口始终死等VRU通过，当遇到了VRU在避让，等待车辆先行通过，那我们会很果决地过去。而大家都见过其他的系统很慢，会一直等，哪怕行人已经有很强的意图，让车赶紧走，它也不走。

还有一个高频场景，大家会非常有共鸣的是起步。在直行的时候遇到要左转的车辆，我们是有路权的。但是从上一代系统来看，比较难判断这个时候应该怎样，经常在路上会刹一脚，因为很难去精细地判断它的行为，但地平线SuperDrive直接就过去了。一些其他的车辆可能会点刹，甚至本来准备过去，半路发现情况有些变化，拿不准了来一脚重刹。

还有典型的绕行场景，社会车辆占道是城区行驶的高频场景，优雅从容的绕行才能保证通行舒适且高效。地平线SuperDrive能及时检测到前方占道车辆，减速绕行，行驶路径优雅拟人，体感舒适，会让你感觉和正常的驾驶行为没有很大区别，是一个连贯的行为，之后瞬间就恢复状态。而大家可能有尝试过其他系统，当识别到前方占道车辆，会减速刹停，无法绕行，妨碍它车通行，最终导致接管。

分析完用户体验的差别，从技术上说，通过哪些核心点，能够去达到一个“好用”的智驾系统呢？

第一点是更强的端到端系统 。在这个系统中让信息流有更多的path是通过纯神经网络传递的，没有在中间添加过多导致信息损失的人工环节，这就是快思考，因为它相当于通过很高效的方式，把一些应该做的事情固化在了系统中。

第二点是交互博弈 ， 也即现在很多系统不太经常提到的慢思考 。有时候人也要慢，因为有些场景很难通过反馈的方式去处理，你更需要想一想下一步行为的前因后果是什么，就像下棋一样做几步推演。通过慢思考，能够更好地举一反三，而不是只有见过才能学到，有更好的泛化能力。在交互博弈的过程中，很难通过有限的数据点，把所有交互行为都学得很好，要有一定的Planning行为才可以。

最后一点 ， 是地平线主打的BPU 。我们是自研的神经网络加速器，这里面不用说端到端了，交互博弈也有很多更细的软硬结合的设计，能够让一些搜索式的行为、前推式的行为在硬件级别就有加速。

感知和规控关键技术解析

在这些技术底座的支撑下，地平线在感知和规控方面都分别做了什么技术创新呢？

首先是感知。我之前有针对地平线BEV在智猩猩做过一次讲解，我们的BEV技术相当于只是一个building block，是中间的一个环节。但现在我们会从一个更广的维度去看它，会从整个场景来考量，但有一些挑战：

1 . 人车混行 ， 强博弈 。这种情况下对多种类型的动态物体都要有很精准的类别及行为的感知。

2. 道路环境复杂 。意味着所有静态元素、异形障碍物的处理，都要有很精准的召回与反馈。

3. 场景多变 。有些场景很窄的，有些场景又需要有很远的感知距离。你的系统怎样在一个多变的环境，动态地调整对于精度和距离的折中。

我们的感知团队主要做了几点创新：

1. 基于Transformer的端到端感知 。这件事情不是新闻，但真的在一个嵌入式系统里做到，还是要花一些effort。

2. 动态/静态/OCC三网合一 。不是三张网、三个链路，而是高度耦合的一张网、一个链路，互相之间会有帮助。

3. 虚拟相机&超视距先验 。通过更灵活地利用传感器和数据的方式，达到视角不断变化、更强的超视距先验。

端到端，就是把一些以前有的中间环节串起来，让tensor在中间flow起来。我们通过这样的方式达到什么样的效果呢？直接用数字说话，回归误差、遮挡稳定性等各方面指标都有很强的提升，尤其是像鬼探头场景，通过这样的方式使整个物体输出延迟直接被砍掉了3/4。工程师更喜欢的一点是终于没有那么多代码行数了，我们更多是通过数据的方式迭代整个系统。

接下来看一下视频。

1. 鬼探头

出来个人我们也能很快detect。

2. 施工区域

对于施工区域我们会circle back。我们不光能检测到中间是一个被围起来的区域，还能知道围起来的是护栏。

3. 复杂路口

大家关注两点：

一点是静态的环境是很复杂的，我们能有比较精确的几何和逻辑层的刻画，以及一定的脑补。

另一点是大家可以关注下刚才走过去的那些行人，很多以前的系统识别这些行人会有闪动，有很多tracking上的问题，跟着跟着就跟丢了。但我们基本上可以把每个人跟下来，这是一个能做到很好交互的前提。

4. 小区抬杠

这是我最喜欢的一点，停车场的栏杆occupancy也能召回。不用像以前一样遇见个栏杆，我做一个白名单模型，然后又发现另外一种栏杆，又要做一遍。我们直接通过数据驱动端到端的方式来刻画物理世界中哪里是不能走的。

最后，我们会做一个三网合一的感知系统。

还有 Multi-Scale多尺度感知 。之前为了在小算力系统里面去做这件事情，我们在使用传感器的时候做了很多约束。比如在传感器里面做一些recess和crop，把一些固定的区域拿出来做感知。这件事情以前更多的是因为算力限制。

但现在是在征程6芯片上，硬件上面有了很强的支撑，因为BPU在硬件的数据通路和计算通用、专用计算单元的数据通路上，有更强的可配置性，所以我们可以通过动态的方式不断调整系统中的算力分配。我们把很多算力分给超视距感知，赋予它一个更大的神经网络的感受引。我们也会在一些需要精细感知的地方，把整个系统的算力租赁过去，让它有很精细的感知，尤其是在泊车场景，比如立体车库场景。

而做这样一个感知系统数据，肯定需要下硬功夫，这个大家也都会比较清楚。

讲到规控技术，现在的自动驾驶感知技术虽然实现端到端了，但是感知和规控还是两件事情。感知还是要做端到端，而规控是另外一套不太一样的思路，哪怕是在神经网络设计上。

我们没有直接做一个网络直接从头到尾的端到端系统，那样可能是我们刚才说的系统一，一个直通的通路。我们注意到现在的神经网络系统更缺乏的是做Planning的能力。什么叫做Planning呢？就是有能力去问神经网络what-if，一旦我这样做了，别人会怎么样，别人能怎么样，会发生什么事情？而这个事情一定不是一个单向过程，是一个和整个规控的主链路有交互的过程。

地平线 Horizon SuperDrive 最强解析：优雅从容——下一代城区领航新范式

正文

请到「今天看啥」查看全文