专栏名称: 智能车情报局
聚焦智能汽车关键技术与创新产品
目录
相关文章推荐
91运营网  ·  91运营网vip会员早鸟票抢座ing!! ·  14 小时前  
曹将  ·  AI 学习笔记 ·  14 小时前  
跟我学个P  ·  哇靠,连这种书法字都可以用AI生成了! ·  2 天前  
运营研究社  ·  2025做小红书获客,怎么低成本高效拿线索? ·  昨天  
秋叶PPT  ·  别再用付费插件了!DeepSeek合并Exc ... ·  3 天前  
51好读  ›  专栏  ›  智能车情报局

蔚小理的智驾,学不起

智能车情报局  · 公众号  ·  · 2024-08-30 18:35

正文


生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的 2024全球AI芯片峰会 将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯片专场、智算集群技术论坛等7大板块。来自AMD、高通、Habana、壁仞科技、摩尔线程、苹芯科技、亿铸科技、凌川科技、云天励飞、中国移动研究院、北极雄芯等50+企业/嘉宾将参会演讲或讨论。扫码报名或购票~



从未有任何一个 7 月的空气像今年这样紧张、焦灼。
7 月是蔚小理智驾赛程的关键赛点。像是提前商量好一样, 蔚小理在上个月陆续开发布会, 集中火力开炮。
7 月 5 日,理想开了夏季智驾发布会,将自己的核心技术全盘托出,有种掏凉粉自证端到端进展神速的紧绷感。
7 月 27 日,蔚来开了一年一度的 NIO IN,蔚来世界模型 NWM 成为重头戏。在这场发布会上,蔚来提到了很多闻所未闻的新名词,空间认知、时间认知、GOA、群体智能,蔚来似乎想要为这场端到端竞争增加一些新质感。
7 月 30 日,小鹏压轴登场却成为了三者中最为低调的一个。
在小鹏智驾 AI 技术发布日,小鹏临上场前在微博里自曝,当天的活动材料被团队小伙伴删掉了三四页,团队 希望小鹏不要讲得太早。
结果,8 月 2 号华为就抢先公开,已实现车位到车位智驾,小鹏自动驾驶产品经理袁婷婷称,小鹏当天晚上忍住没有官宣的就是「车位到车位的端到端智驾」,原因是担心太激进。
一方面小鹏的谨慎与淡定似乎还昭示着作为头部智驾厂商的底气。
另一方面,可以确凿,随着新势力切入端到端,智驾竞争进入到只争分毫的焦灼状态。
小鹏以 AI 决定论,讲究磨刀不误砍柴工,理想则学习华为在智驾继续压强式投入,寻求突破点,而蔚来不紧不慢,换刀讲究自动驾驶质感。
三者各有特色,却也咬得很紧。
一种新的竞争形态,正全然被打开。如果说过去两年的竞争是 720P 画质的竞争,只能看到技术轮廓的竞争,那么接下来则是 4K 画质的竞争,比拼的不仅是框架,更要经得起用户拿着放大镜看细节, 考察的是「知识的缝隙」 ,细微的差别变得更重要。
一位自动驾驶公司创始人这样形容:「今年的底线是无图,明年的底线是端到端量产」,足以显示出自动驾驶战场的焦灼。
现在, 败下阵来的不是智驾能用或不能用,往往是好用或不好用。

01

理想:

从差生,到绝对 第一梯队


过去两年中,理想智驾被排除各种智驾榜单之外,原因是进展太慢。
此前,理想的重心并不放在智驾上,但去年开完雁栖湖战略会字后,一切都变了,自动驾驶成为了理想的重要战略之一。
在内部,理想的自动驾驶经历过三场战役,分别为泰坦计划、金苹果计划、达摩克里斯计划。
对应的是理想智驾的三个重要节点:
  • 2023 年 12 月推送理想 AD Max 5.0 版本开通百城智驾;
  • 2024 年 7 月推送 AD Max 6.0 版本全国无图智驾;
  • 2024 年年底将量产端到端智驾;
去年 10 月,我们试驾理想 L8,当时开城如火如荼,阿维塔、问界、极越等车型都已经开通城区智驾,唯独理想和极氪尚未开通城区智驾,理想销售只能怯生生带我们去一条快速路试驾了一圈。
直至理想 AD Max 5.0 版本推出,才慢慢覆盖到全国 110 个城市的主干道路。
理想真正的分野并不是 5.0 到 6.0 版本,而是 6.0 到端到端的风暴式跳跃。
最近半个月,我们曾先后试驾理想 AD Max 6.0、端到端内测版,差别十分明显——端到端与 6.0 根本不在一个水平线上。
6.0 的博弈能力、拟人化能力、聪明程度都远远不如理想端到端。
举例两个场景,同样是二轮车,6.0 版本跟在二轮车后面行驶了约一分钟不敢超车,而端到端版本非常果断超车;在可用性上,6.0 版本在遇到深圳施工路段有自动退出现象发生,而端到端即便走到乡间小路也实测可开。
理想的智驾更像一个后进生在高考前半年决心奋起直追。
不同于其他车企,理想官方将其端到端描述为 「One Model」端到端。
为了解释其技术路径,7 月 5 号理想智能驾驶夏季发布会一改往常新势力现场发布的风格,把理想智驾全线负责人拉过来做深入访谈,上半场介绍无图智驾 6.0 版本,下半场则由贾鹏、郎咸朋详解理想端到端。
理想的端到端有四大亮点:通用障碍物的理解能力、超视距导航能力、道路结构理解能力、拟人的规划能力。这四大能力对应的是底层的 系统 1 端到端模型 +系统 2VLM 模型。
理想这套双系统架构来自于丹尼尔·卡尼曼的《思考,快与慢》,系统 1 代表以来直觉与本能的快系统,由端到端来处理 95% 的路况,系统 2 则是有意识分析思考的慢系统,由 VLM 处理剩下的 5%。
在端到端模型中,理想的优势是数据、训练方法与模仿用来学习行驶轨迹。
  • 数据:理想约有 200 亿公里 的驾驶数据,并按照自定义的司机驾驶标准筛选出 100 万公里、年底 500 万公里的模型数据用于训练;
  • 训练方法: 模仿学习+强化学习 ;端到端的目的主要是模仿真实驾驶数据来学习行驶轨迹,但由于行驶轨迹无法判断驾驶行为好或者不好,为避免诡异的驾驶行为就融合了强化学习,让系统了解什么是错的,以此给系统惩罚。强化学习就来帮助端到端拥有对复杂环境的能力。
  • 系统 1 和系统 2 的互补:22 亿的参数量的 VLM 大模型布置在了 OrinX 芯片上,在遇到复杂场景时系统 2 可以结合知识推理给给出更好的判断。比如,辨别潮汐车道、遇到坑洼车道给出减速建议。
这里有一个难题,理想, 如何把 22 亿的巨大参数量布置在几百 TOPS 上的 OrinX, 还做到了低延迟?
贾博士解释了这个问题,原始 VLM 最初有 4.1s 时延,能够缩短到最终的 0.3s 时延 ,这需要经历四个步骤:
第一步: 增加了 LMM GPTQ, 传统量化方法是用 AWQ,理想魔改了 GPTQ,解决内存带宽不足的问题,时延减少至 1.9s。
第二步: 增加 VIT 算子融合 ,实现了 Tensor(张量)的算子融合,对 attention 算子进行深度优化,时延减少至 1.4s。
第三步: 增加 LMM 投机采样, 理想用自研的投机采样方法从每次推理只能输出一个 token 再到连续输入多个 Token,时延减少至 0.7s。
第四步: 增加流式视频编码器, 使用重复的视觉计算环节环节带宽压力,最终时延到了可以接受的 0.3s。
准确来说,理想并不只有双系统,在端到端+VLM 模型系统之外, 理想还存在第 3 个系统——世界模型。
这是理想为系统 1、系统 2 搭建的考试体系。3D 虚拟环境一眼假、效率低,重建式仿真容易出现车辆拖影行为,而生成式则存在不符合现实世界规律的幻觉问题。
因此,理想将重建式仿真、生成式仿真结合做出「世界模型」,相当用扩散模型重建现实世界,来做改版过的整体,把考试题做成有新视角的 3D 物理世界,用 3D 高斯溅射来做生成模型,来做模拟题,使其用用更好的泛化性,在这个世界里可以控制天气、车流,甚至时间。
理想在 7 月的这场竞争中是给料给得最多的,某种程度上也是向外界喊话: 理想不惧竞争。
一个细节是,李想经常会问郎咸朋算力够不够,不够就再让谢炎弄点。
理想的智驾底气在于,理想实在是不愁卖。目前理想现金储备接近 1000 亿元,24 万智驾用户正嗷嗷待哺。
现在,理想已经对端到端投入了 10 亿人民币 ,未来还打算投 10 亿美金。
朗咸朋认为,「先不说 L3/L4,想支撑 VLM 和端到端的训练, 大概需要几十 EFLOPS 云端算力。」

02

不把端到端看做解药的蔚来,

慢了吗?


「蔚来智驾至少比理想慢两代」,一个微博大 V 博主在 7 月末曾这样评论蔚来。
蔚来真的慢了吗?
7 月 27 日,蔚来 NIO IN 的核心也是智驾,蔚来智能驾驶研发副总裁任少卿花了半个小时讲解了 蔚来世界模型 NWN。
与理想把考试系统称之为世界模型不同,蔚来将自己的整套智驾方法论称之为世界模型。
2024 年上半年是蔚来的城区智驾发力之年,4 月底,蔚来推动了包含城区 NOA 的全域领航辅助 NOP+,覆盖全国 726 座城市,下一个节点就到了蔚来 Banyan2.6.5, 该版本包含端到端 AEB 功能,目前蔚来仍未官宣端到端 OTA 的时间节点。
上个月我们试驾过 Banyan2.6.5 版本,在面对复杂路口及穿越行人时,仍然需要接管,但好的一点是蔚来的规划基本符合人类司机的预测范围,不会像其他智驾有太多超越人类不能理解的决策。整体可用,但到好用仍有一定差距。
蔚来为端到端做出的团队挑战与理想基本前后脚,经过上半年调整,蔚来的研发团队分为感知、规控和集成等部门。
调整后,感知和规控变成大模型团队,集成团队为交付团队。
紧接着就是在 NIO IN 的一系列「成果」的发布,在 NIO IN 现场,能看到蔚来的风格如同一名绅士一样,列好了数字,但不讲谁是第一,提到了端到端,但没有拉踩和比较。
蔚来正在尝试抛开用理工男的技术框架, 用文科生的语言讲技术故事。
蔚来的世界模型 NWM 是一套用想象重建做空间认知、想象推演做时间认知,所构建的「多元、自回归生成式」模型结构。
说白了,就是左脑要先获取更多接近真实世界的信息,右脑要持续生成更长时间的信息。
任少卿认为,从信息抽取的角度而言,蔚来自动驾驶想象重建的能力经历过四个阶段:
  • 第一阶段:2010—2020 年 2D/3D 检测,用框和线描述现实世界,信息量不多;
  • 第二阶段:2021-2022 年 BEV 算法提取了更多信息,但缺少路边沿信息;
  • 第三阶段:2022-2023 年 OCC,2D 信息的表达变成了 3D,但少了物体材质、天气特征等;
  • 第四阶段:2024 年以后蔚来世界模型学习真实视频后,利用想象重构生成与现实世界基本一致的平行世界。
从想象推演的能力来说,蔚来依靠 NWM 可以生成了 2 分钟的长视频生成,超过了大多数视频生成软件。
有个案例很有意思,给蔚来世界模型一个车辆剐蹭的真实视频,让模型回到事故发生前 3 秒钟,此时世界模型就会在平行世界中做出多种决策,比如急刹车、打右转向等。
每 0.1 秒生成 216 个平行的可能轨迹, 评估后选出最优解。
说实话,蔚来的这套打法比较奇特,在大家都说端到端的时候,不再刻意去提端到端,颇有种「你打你的,我打我的」作风—— 不再陷入别人的话语体系去打仗。
甚至,蔚来还在发布会最后做了张图以「空间理解、时间理解、使用海量数据」来对比常规端到端模型和蔚来世界模型的差别。
如果要考量蔚来的数据支撑,蔚来的智驾云端总算力 287.1 EOPS、智驾用户 53 万、智能驾驶城区累计验证总里程已达 3.7 亿公里,全域领航辅助 NOP+可用道路总里程 389.9 万公里。
蔚来的野心需要支撑,而这些支撑点看似是群体智能、生成式仿真, 实则是蔚来希望用符合品牌调性的话语体系,在自动驾驶争夺赛中独树一帜。
你和李斌聊专利、聊数据,但李斌会提到蔚来的愿景是希望创造一个不一样的蔚来社区文化,要从技术、产品、服务、社区四个维度去看企业的长期竞争力。
李斌认为,蔚来已经做好了足够的思想准备,每个季度投入 30 亿研发费用,一年投入一百多亿研发费用,让蔚来拥有参加智能化决赛的机会。

03

小鹏磨刀,磨刀不误砍柴工







请到「今天看啥」查看全文