专栏名称: 智能车情报局
聚焦智能汽车关键技术与创新产品
目录
相关文章推荐
字体设计  ·  这些日式文字排版,竟然藏着这样的秘密! ·  4 天前  
字体设计  ·  一学就会的3种基本构图 ·  3 天前  
庞门正道  ·  这条街最靓的仔! ·  2 天前  
ZaomeDesign  ·  每日灵感丨二月二十六日 ·  2 天前  
51好读  ›  专栏  ›  智能车情报局

端到端足够了吗?

智能车情报局  · 公众号  ·  · 2024-08-01 19:32

正文


9月6-7日,2024全球AI芯片峰会 将在北京举行。AMD人工智能事业部高级总监王宏强,云天励飞副总裁、芯片业务线总经理李爱军,清华大学交叉信息研究院助理教授、北极雄芯创始人马恺声,Habana中国区负责人于明扬等20+位嘉宾已确认出席并演讲。扫码报名或购票 ~



图表 1 任少卿讲了蔚来的世界模型概念 (来自蔚来2024科技日官方视频截图)


上周末蔚来搞了2024科技日。比较有看点的当然有Nio的新手机和车载算力芯片的部分,但我们还是更加关注蔚来的自动驾驶技术和战略部份。整体听下来,还是有内容的。


话题1:


AEB这种救命的技术,还是享有优先发展权的。实际上它也是随着自动驾驶能力进步而进步的,蔚来一个关键的技术观点,还是要发展全速度范围内的AEB尽早落地。这里面的技术难度和技术使命感是不言而喻的;


话题2:


端到端范式。这个没什么悬念了,现在大家都在向端到端靠拢,方法基本一致。可能拼到最后,还是数据多寡和质量的问题。要回头看的话,自动驾驶的技术进步,基本是沿着Tesla划定的路线往前走的,但能跟住Tesla本身就是一种能力;


图表 2 智能驾驶技术的发展史 (来自蔚来2024科技日官方视频截图)


任少卿所描述的智能驾驶的技术发展史——即空间理解能力的进化史。这个观点我们非常赞同。沿着时间线观察,从2D/3D检测、到BEV俯瞰表达、再到OCC通用障碍物识别、最后到还是比较虚的“世界模型”……这个技术演进过程,基本是Tesla在倡导的。但在世界模型这一块,我们也看不到Tesla到底做了什么具体的工作。2023年Tesla AI Day停办以后,只在当年的CVPR上听Ashok(来自Tesla)介绍过这个概念。但真正向公众完整阐述世界模型和其在自动驾驶领域应用思路的,蔚来应该是第一家;


话题3:


其实强行把“世界模型”和“端到端”概念剥离开的思路并不严谨。大概率这也仅仅是市场的宣传需求(市场总是需要差异化亮点的)罢了。


我们更关注类似Sora的视觉信息推理能力——蔚来叫做“空间推理”能力,能不能真正在最能够刻画和表征真实的物理世界中,让预测和规划部分,在更高的程度上和人类对齐。这才是耗费巨大资源建立世界模型的意义。


图表 3 世界模型的训练方式 (来自蔚来2024科技日官方视频截图)


世界模型的训练方法,和Transformer在NLP领域中的范式是一致的,这是核心优势。一个是不需要标注从而降低训练成本;另一个就是视觉内容丰富,客观上蕴藏的校准信息很多,也就更容易收敛。


其实一个更明显的事实是,自动驾驶更应该是道路环境下的世界模型,面临比Sora更简单和单纯的问题。达到一个合理的技术能力(可靠性)还是比Sora类产品相对简单的。


图表 4 时空推理,世界模型的核心任务 (来自蔚来2024科技日官方视频截图)


世界模型的本质,在自动驾驶里其实就是预测。“预测”模块是承上启下的,良好的预测依赖于准确的视觉识别结果,且这个结果最好不需要人类定义,而是由机器自己定义,这是端到端告诉我们的答案。而良好的预测输出,又是合理控制(驾驶)的必要输入。所以端到端解决的是数据在自动驾驶系统中流动的方式,世界模型则定义了数据在自动驾驶系统中被利用的方式。如果通过感知和预测(准确地想象世界的下一刻),所表达出来的未来1-3s的世界是真实的、大概率可靠的,那么就是真正的端到端了。


目前人比机器强,就强在这里。一个没什么文化和学术训练的普通人,一个在逻辑上也许不能很好理解这个世界很多事情的普通人,只要稍加训练并放在道路上累积经验,也能在短时间内开好车。


图表 5 NWM的输出 (来自蔚来2024科技日官方视频截图)


上图是当前Neo World Model所想象出来的世界,可以看到道路牌还是一片糊涂,但道路上的车辆关系和车道关键要素,都是齐全的,且相互关系还是准确的。这是我们最看重的地方。


图表 6 NWM的输出 (来自蔚来2024科技日官方视频截图)


但也不是一点问题没有。上图中一个穿越路口的世界推理,就认为黑色轿车一定会和白色SUV发生碰撞。这到底会引发后续的世界推理走向何方,不确定。


图表 7 预测是基于万千推理结果的 (来自蔚来2024科技日官方视频截图)


在每个时刻都去尝试以当前世界真是感知结果为出发点,推演万千变化可能。从而可以保持在视觉(推理)数据性质的范围内,做出下一步规划。这是另一个层面的端到端。


图表 8 从真实数据中倒推更好的驾驶行为 (来自蔚来2024科技日官方视频截图)


世界模型NWM可以实现从影子模式上报的故障数据中,倒推更合理的驾驶行为。这应该是蔚来在NWM已经观察到的能力,这也是一种巨大的潜力。证明了逐步被训练出来的NWM可以处理一些人类司机常见的鲁莽驾驶错误。


上图并不能表现出具体内容,建议大家回看完整视频,大概在2小时15分的样子。


图表 9 NWM的最终落地形态


小结:


自动驾驶 系统的技术进步,不会是孤立的。

不论从研发过程(从跟随到并驾齐驱再到领跑)、还是最终产品的实际落地形态。完整地、独立地,践行自动化控制理论,成熟的产品和技术,最终会进入国民经济的方方面面。







请到「今天看啥」查看全文