专栏名称: 焉知新能源汽车
新能源汽车三电科技资讯、干货等,专注:燃料电池、动力电池、电机电控、充电基础设施
目录
相关文章推荐
51好读  ›  专栏  ›  焉知新能源汽车

​看不懂「世界模型」,就像你看不懂人间爱情

焉知新能源汽车  · 公众号  ·  · 2024-09-07 14:17

正文


电影《花样年华》剧照


专访


受访人:

理想汽车智能驾驶研发副总裁 郎咸朋博士;

理想汽车智能驾驶高级算法专家 詹锟

「端到端、世界模型」像极了爱情,人并不好描述这是什么,也不知道应该怎么做才是最好的答案,但都想收获属于自己的爱情故事。

端到端应该是整个 2024 年自动驾驶领域最热的词汇,如果自信一点的话,其实它就是,它不仅是一个技术范式的改变,更多是整个通用通用人工智能接下来的方向指引。

理想汽车是自主品牌里第一个量产端到端智驾的主机厂,一方面理想确实在技术上守住了自己的基本盘;另一方面理想汽车对未来人工智能的理解更加深刻。

下面这部分内容是一些信息采访,信息量很大,我没有做删减和改动,希望给你提供一下不一样的信息。

核心内容:

Q1:按照我们的理解,理想智驾从一开始的落后,到进展和体验的靠前,有些做法非常关键,比如从 RD 转 PD 和快速试错,在转 PD 过程的验证工作,如何兼顾速度和质量?对于传统粉丝诟病的新势力验证不充分就上市的说辞,我们如何应对这种质疑?

郎咸朋:后进生逆袭到第一梯队很正常。

第一点是我们的组织效率确实非常高效,我们是向华为学习的组织架构,比如我们内部有 IPD 流程等。

这是我们学习一些先进经验,然后结合理想汽车自己的企业特点进行内化处理的结果。

在验证测试方面,我们通过技术提升做到更好的测试和发布效果,同时也减少了时间和人力。而且,测试效果比原来人力测试更好,这是人工智能技术带来的结果。

我们用重建、生成技术取代了人工的测试,重建技术很快就能够重建几百公里的场景,包括各种天气路况下的场景,这些场景通过人类驾驶未必能够获取。

詹锟:目前在整个智驾团队,我们的 PD、RD 和交付这三者同步进行,我们是交付一代、研发一代、预研一代,这是我们为什么能一直紧跟目前智驾最新技术方案的原因,我们有比较好的阶梯式研发流程。

我们在做无图 NOA 研发的时候,其实端到端已经开始预研。并不是等无图 NOA 做完,再慢慢的切换到端到端架构研发中,其实我们前面就有储备,所以这是我们为什么会速度比较快的原因。

如果大家觉得牺牲了效率,其实是因为没有找到提效的方法,我们逐渐已经找到了通过自动化测试、世界模型高效验证模型的方法,所以我们才能兼顾速度和质量。

Q2:现阶段理想智驾研发架构中分为算法研发和量产研发,分别对应着不同的小组,小组对应的是端到端不同模块。随着未来算法的迭代和成本的优化,未来的组织架构是否会进行调整?朝哪些方向来做调整?这个过程中有遇到哪些难题?

郎咸朋:在整体战略规划和业务战略里,我们对于业务组织有清晰的布局。组织根据业务变化,业务的目标和迭代则根据战略调整,这就是我们的 BLM 流程(业务领导力模型),我们原来叫 LSA 流程(理想汽车战略分析法)。

大家可能对外感知到的是产品、组织的迭代,但实际上背后影射的是我们战略和业务的迭代和变化。

我们的组织变化要追溯到去年或者更早。我们把智能驾驶作为公司战略之后,业务和组织才开始发生迭代和变化。

在去年秋季的雁栖湖战略会,我们首次明确提出 PD 和 RD 都非常重要,但是其实在那之前 PD、RD 已经有了,只是在战略会上,进一步明确了将智能驾驶和 RD 都作为公司级战略展开,所以业务发生了变化。

接下来组织会不会发生变化,要看跟业务是否有关联。

Q3:目前所有的车企能够量产车型都是 L2 级辅助驾驶,理想汽车「端到端 +VLM」怎么保证保证智驾的安全?

郎咸朋:从流程上来讲,内部主要研发流程分为产品交付研发流程以及智能 AI 的研发流程,两个流程相互配合。

端到端+VLM 这套技术系统在一个月的测试过程中,虽然开启城市 NOA 功能始终是通过拨两次方向盘杆,实现从 A 点到 B 点的智能驾驶,但是模型迭代的能力却在不断提升。

在模型迭代的时候,整个功能跟原来完全一样,所以这个功能之前做的测试仍然有效。对于这个能力的表现,我们用生成和重建的方式做模型的泛化测试和检验,比实车在全中国驾驶测试好得多。

这是我们在 AI 时代到来之后,对于产品研发的深度思考,从而带来的研发变化。

安全另外一层含义就是:怎么能在产品交付之前,做更多更有效的测试。

如果用实车做测试,一方面是成本;另一方面是是测试效果可能达不到交付有监督自动驾驶的程度,特别是当模型迭代比较迅速的时候。

我们现在用 Diffusion transformer 技术,再加上 3DGS 技术,能够把曾经遇到过错题以及遇到过的场景,举一反三地形成模拟题,实现不断地测试模型能力,不断地优化各个城市表现。

我们在每一个维度上都有非常严格的打分,比如安全、法律法规等维度。如果不安全、不合规,模型就不能交付给用户。

现在在千人团内测阶段,还没有到量产阶段,所以在安全、合规方面的要求会更加严格,确保我们的产品是一个安全可靠的产品。

詹锟:我从技术角度来说,我们有安全兜底模块,甚至有些东西我们会保证它有绝对的下限。

以前写了很多规则应对不同的场景,但是现在只需要写下限的规则,上限全靠端的端 、VLM 去捕捉,甚至有些防御性驾驶,VLM 都可以提前告诉系统,比如丁字路口、坑洼小路等,这些都在一定程度上提升了系统安全性。无论是数据还是算法,都是在把安全性往上提升。

并不是大家说的那样,用端到端了安全就差了,这是针对设计不完善的一种想法。

另外,AEB/AES 其实是在最极端的情况下,最兜底的一种保证绝对安全的方式。

这就是用算法、冗余一起来解决安全问题。

Q4:现在从生成到输出,对于传感器包括数据需要有一些质量监测,这个过程中如果出现恶意攻击,甚至说出现各种故障,这种情况理想汽车怎么解决这数据安全的问题?

詹锟:面对数据被污染或者传感器遭受恶意攻击,以及对神经网络进行对抗性破坏,我们已经将这种情况涵盖到整个网络训练过程中。

模型训练并不是针对单一的传感器,比如一个传感器损坏,我们能够通过 BEV 解决。

即使在雨天某个传感器脏污的很厉害,我们依然能稳健驾驶,同时能给用户对应提醒,会告诉你找个安全的地方停车,不会让系统直接失效。

因为有 Radar、Lidar 等多个传感器,各个传感器在不同环境下能冗余互补,单一的攻击很难起效,这就是为什么很难有单一的攻击策略能让智驾系统失效,因为在技术上做了很多防护。

Q5:理想汽车怎么衡量技术发展和销售规模平衡问题?

郎咸朋:理想 L 系列外观比较相似,外界也说是在套娃,但是这让我们有个最大的优势。

传感器布局和传感器型号完全一致,所以理想L系列的数据可以完全复用,这个是我们比其他企业想的更长远的,所以说大家觉得我们套娃了,实际上对自动驾驶的研发非常有好处。

我认为技术发展和销售规模平衡并不矛盾,最近两个月我们的 AD Max 车型销量每个月保持 10% 以上的提升,30 万元以上车型 AD Max 销量占比达到 70%,部分车型部分地域 AD Max 占比达到 90% 以上,这就是我们最近这几个月技术发展带来的变化。

如果技术没有影响销售的话,可能是技术落地没有做好,没有真正解决用户需求。

之前行业普遍做轻图和有图方案的时候,其实也在做一些功能,但是一定没有端到端的使用效果好。

我觉得还是因为到了端到端这个时代,大家对这个产品的效果有了更好的体验之后,用户就会买单。

Q6:智能驾驶的技术升级是否能带来销量提升?

郎咸朋:销售有几个非常重要的漏斗,第一个是品牌,只有用户认可品牌后才会比较智驾、电池、续航等。

如果说一开始品牌就不在老百姓的选择范围内,那可能做什么都跟销量没有关系。

Q7:现在端到端在不同城市的表现不一样,我们会针对不同城市来做不同模型吗?还是说会在一个模型上不断地去调优?

詹锟:首先,模型在不同城市有不同表现,这并不代表我们要对不同城市下发不同模型,让模型获得不一样的错题。

而是说在世界模型的评测体系下,能够精准地知道这个模型在不同城市是什么表现,便于我们对其做有针对性的分析。

比如在过去的 Case 里,杭州和广州偏弱,那么对应补足杭州、广州的一些特定场景,加入训练数据中,放到模型中,让模型有全面的提升,所以模型迭代的过程并不是盲目的。

如果我们不知道产品在不同城市的表现,我们就会盲目地寻找全国各地的数据,最后实车体验时用户发现杭州还是不行。

这样的结果就是迭代效率非常低,训练数据量增加并没有效果,这就是大家都在说的大模型需要高质量数据。有精准的评测才能提高质量,而不是盲目增加数据量。

不同城市不同模型的效果其实是我们非常好的一个特点,能知道很细节的评测维度,不同模型我们有很多维度。在不同城市,还能知道它更细分的情况,让我们更有针对性。

比如是不是因为广州的高架桥特别复杂,是不是杭州的可变车道特别复杂才导致端到端的表现不如其他城市,我们是通过这种方式迭代我们的智能驾驶。

最终,我们肯定最后会把一个在全国都非常均衡的智能驾驶推送给用户。

Q8:One Model 模型怎么优化?只能靠优质数据吗?系统本身是否会有调整?

詹锟:我们现在用数据大幅训练模型。

微博上有人总结我们三个版号的含义。

第一个版号是数据,1 表示 100 万量级的 clips;2 表示 200 万的clips。

第二个版本号是模型结构。

所以优化不只是依靠数据,模型结构也很重要,里面有各种细分类型,比如 Cross Attention、Self Attention,我们在这方面会做各种各样的设计和实验,所以第二个版号有各种变化,训练策略也会发生变化,模型训练一遍就结束,还是训练一遍以后把重点那点挑出来,再重新训练一遍?还是先训练一部分,再做精选数据的训练。

这些都是在大模型训练过程中,我们逐渐积累的经验,肯定不是仅用数据来迭代。

Q9:大家都在探索自动驾驶,没有一个共识方案,所以理想端到端 +VLM 进入市场的同时,还会不会有其他探索?关于智能驾驶的短期目标,或者最终目标是怎么样?

詹锟:第一个事实是,大家都在研发阶段、尝试阶段,我们之所以敢把目前的版本推送给用户,是因为我们觉得可以类比 CNN 深度学习网络时期,当时因为一个竞赛,CNN 的性能优化了 10% 左右,性能和安全体验得到了大幅提升。

第二个事实是,在这个过程当中,不同数据、不同的模型结构、不同的训练方法,对模型的迭代都有帮助。

这其实是各家都在做的一个关键,解决数据和训练算力的基础问题之后,我相信我们,包括特斯拉都能成功炼丹。

但是炼丹第一步就是得有原材料,当原材料得到解决,炼丹的比例调整好,这个丹的作用才大。

类似于以前炼火药,按照一硝二磺三木炭的比例来,火药的威力就大,如果1:1:1做出来的就是「呲花」,这就是各家在迭代过程当中的一些技术诀窍。

我们和用户共同成长,所以我们也需要知道每一套模型实际的表现如何,我们内部有自己的测试,如果表现不好就会内部消化,这种模型就不让去用户使用,但是每当模型有迭代、有提升的时候,我们都会拿给用户去进行测试、验证,这是我们研发过程当中的一些迭代。

关于下一代方案,不知道大家有没有看上周智元的发布会,智元展示了 G1 到 G5 的具身智能过程。

其实我们内部也有自动驾驶整个研发过程的阶段,我认为在现阶段,无论是对于理想汽车来说,还是对于特斯拉来说,其实都是在向双系统方向发展。

所以端到端肯定是一个非常好的阶段,我们认为已经达到了 L3。我们想进一步向 L4 发展,其实就是需要端到端+VLM 双系统,我们认为这是面向 L4 的一个终局方案。

那再往后,L4 不是终局的话,我们还有 L5,像智元发布的 G5 一样,我们肯定还会有一体化的、超大规模的统一模型,像 GPT-4o 模型。

未来,肯定要把两个模型合在一起,实现手脑完全结合的大模型方案,这是我们之后要尝试,要探索的东西。

Q10:目前,理想 AD Max 由两颗 OrinX 来支撑现在测试的能力开发,端到端方案对车端算力的要求是什么样的?是更高还是更低?那么未来随着上车端到端会不会变得更加强大?那这究竟是个什么样的关系?能不能解读一下?

詹锟:各家在使用算法的时候,都会跟自己的硬件做匹配,无论是用地平线方案,还是 Orin 方案。

双 OrinX 可以完美适配我们的双系统方案,如果要给出一个固定的上限,不是很好直接预测或配置。

但是我们可以知道,随着算力增加,整个能力是一个非常线性的增加,包括特斯拉也证明了 12.5 版本比 12.3 提升了五倍,这也完美符合这种大模型的 Scaling Law。

对我们来说,到 Thor 阶段我们肯定会有一个更大规模数据量训练的端到端大模型,效果会进一步提升。

我们可以看到它的趋势,我们会基于芯片对它进行相关算法的定制化调整;同时模型规模越来越大,最后产出的端到端效果会越来越好。

另外,其实也可以看到特斯拉现在正在宣传 2026 年要做一个 AI 5 的芯片,大概有 3000 到 4000TOPS 的水平,这个阶段是他在做 Robotaxi 的一个想法。我们也在持续关注高算力的车端芯片的性能。

郎咸朋:我补充一点,Thor 芯片上车后,因为它的算力比现在 OrinX 又大了很多,那么我们会在 Thor 上更多地发展我们系统化 VLM 的模型能力。

端到端模型我们认为是比较吃算力的,但是它使用算力的上限比 VLM 少很多,而且它有一定的上限,要 1000 万 clips,训练这样一个模型所需要的参数量非常大。

所以在向 L4 发展过程中,整个系统需要让它具备更好地应对未知场景的能力,而未知场景能力的提升,需要提升的是系统 2,就是 VLM 的模型能力,所以我们现在 22 亿的产出量,将来可能再去扩大。

Q11:端到端方案对算力要求的下限最低到多少?

郎咸朋:我们认为没有下限。

Q12:理想汽车端到端+VLM 两个系统怎么配合?未来的发展是什么样的?

詹锟:VLM 在车上类似于 GPT,各个系统模块都会找它问问题,车机会问它,有个高架桥是不是要在桥下走?

如果不是的话 VLM 可以跟车机进行交互,输出轨迹进行切换。

端到端问它当前在这个路口走到了左转人行道上,能不能沿左转走,还是违背路径,沿着其他方向走,这种复杂路况 VLM 都需要做判断。

各个模块会问 VLM,同时 VLM 也会自己判断情况,比如遇到比较复杂的路况,如施工坑洼等,VLM 会主动给端到端系统发信号,端到端收到减速信号,或者是一个注意安全的信号,会把文字信息会变成一个 embedding,就是把它变成一个特征向量编码,放到端到端模型里,最后端到端模型对应采取减速策略或者避让策略,输出轨迹。

同时还有一些情况,比如我们告诉端到端这个地方是公交车道不能走,那端到端在输出轨迹的时候就不会向公交车道这个方向去。通过各种语言文本信号的配合,让端到端能听懂 VLM 的相关建议值。

VLM 相当于教练一样,旁边有个这样的司机告诉你,这里要注意车辆减速,车辆预判驾驶,但具体怎么踩刹车,这个会让端到端去判断,但是 VLM 会给出相关的建议,甚至踩刹车程度的建议也会给。

Q13:One Model 端到端是如何实现的?相比其他的分段式端到端的区别?

詹锟:我们是传感器的输入做编码,然后交给统一的 Transformer decoder 网络做输出。

它的输出分为几个维度:

  • 一,感知信息的输出,感知信息可以用来做显示,跟驾驶员做交互;
  • 二,辅助监督,让这个模型收敛得更快;
  • 三,直接输出的轨迹,我们这个轨迹交给了一个控制模块,控制模块会做安全校验;
  • 四,最后转成油门开度、方向盘转角,最后输出出来。

整个模型架构其实非常简单,不是特别复杂的架构,而是一个非常简洁清晰的架构。我们更多是通过数据,通过配比,通过训练策略调整One Model端到端的效果。

郎咸朋:相比其他的分段式、分模块最大的优点是 模型在进行推理的时候所有的信息是一手信息

如果是分段式的,上游是个感知,下游是个规划,最终车开的好不好还是要看规划,规划来的信息不是一手的,感知如果出了问题,规划拿到的信息可能就是有瑕疵的,或者有错误的。

模型就算训练的再好,输入不好,规划还是会存在问题,这是最大的区别。

One Model 有没有它的问题呢?

有,它的训练难度非常大。

来的是原生数据,出来的是些轨迹线,这样一听就感觉不太好训练。

第二就是数据。理想有非常好的训练数据,我们有非常多的视频训练片段,我们有 22 亿公里训练数据,今年年底将达到 30 亿公里,但是 30 亿公里不会都用来训练。

因为我们会挑选那些老司机的数据,就是开的好的,什么叫开的好?

我们有几个维度,比如他平时的驾驶习惯,是不是总是急加速、急减速,包括总是开出 AEB 来,这种数据肯定我们就不要了。

我们给每个司机都打了分,现在理想 90 万车主,大概有 3% 的司机,可以被我们评价成老司机。

也就是说,22 亿公里里边我们能拿来训练的是优中选优的一些数据,但其他的企业我不知道他们有没有这些数据可以选,甚至有没有这些数据,这种情况下要训练的话,分段式或者模块化是更好的选择。

詹锟:分段式和 One Model 的区别我再补充一个比较形象的例子。

因为分段式重点是中间要传出一个信息给下游规划这个模型,它传出的信息一定是有损的,因为我要对中间信息做一个设计。

比如说这个车的 3D 位置,它的朝向、它的偏向转角在哪里,我要给它一个结构化信息的描述,但是这样的描述一定是有损的,因为这是加了人类先验信息的。比如它是一个渣土车,渣土车在掉渣和没掉渣对于驾驶来说会有明显的不同。

但是在分段式里面很有可能把这些信息丢掉了,只有完全 One Model,才能把这种隐晦的信息彻底理解,才让车驾驶的更像老司机。

分段式的是 Two Model,会导致中间的信号是有损的,这个有损信号和无损信号比,规划不能给出很好的决策。

Q14:理想给这么多用户评分,未来还会有很多的用户,即使不是理想的车主,都会想在理想的智驾领域得到老司机的认证。这些数据会不会在以后开源,作为一个公开的东西进行评测?

郎咸朋:我们把这些建议先记下来,我们目前没想过这些问题,因为数据都是用于我们内部的研发,如果以后有需要我们再做。

Q15:用户驾驶行为好,理想汽车打了很高的评分,如果是高分用户希望通过理想能够把这个信息传播给更多的消费者。

郎咸朋:我们会考虑。但是我们也考虑到了一些竞争因素,因为这个相当于高质量数据筛选的规则。

是我们的核心机密,如果一旦公开数据其他人可能也会学会。

Q16:现在行业中有共识,智能驾驶会分为能用,好用和爱用三个阶段,目前理想汽车的智驾做到了哪个阶段,我们如大概需要多长时间可以做到“爱用”阶段,哪一年可以达到这个目标?

郎咸朋:能用、好用和爱用这其实是由用户决定的。我们的千人团车主以及购买 AD Max 的车主比例显著提升,我认为这就已经进入到了“能用”阶段。我认为端到端内测推送之后就是一个“好用”的状态。

我自己上下班的智能驾驶比例达到 95% 以上,好用和爱用是培养大众对于智能驾驶理念认同的过程。

我们现在的千人团、万人团包括一些发烧友车主,他们依然处于早期大众的阶段。

当步入晚期大众,也就是 50% 的消费者在没有智能驾驶的时候会不习惯甚至不会开了,等进入到这个阶段就是真正的“爱用”阶段,或者说是必须要用。

理想汽车的研发迭代速度是非常快,我们最早今年年底,最晚明年上半年就会将这套“有监督的自动驾驶”量产交付,那个时候一定会让大家非常爱用这个产品。

Q17:现在理想的用户会智能驾驶的比例达到了多少?

郎咸朋:我们的智能驾驶分为城市和高速,在无图 NOA 全量推送之后,城市 NOA 的日活比例已经高于高速 NOA的日活比例。

这说明了我们产品的提升,因为我们每天自己开车也是在城市道路居多。

Q18:仿真训练和车主自己驾驶的比例分别是多少?

詹锟:我们的评分体系是非常严格,不是所有的车主数据都会拿过来训练,我们会有非常严格的分数,分数会卡在 3%-5% 的水平,随着后面数据采集的越多多,对质量的要求并不会降低,这是我们训练的体系。







请到「今天看啥」查看全文