职场与思考 | 聊聊VLM/VLA和智驾新技术

自动驾驶之心 · 公众号 · · 2025-01-17 07:30

正文

作者 | 么么牛编辑 | 自动驾驶之心

原文链接：https://zhuanlan.zhihu.com/p/17866772378

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

>> 点击进入→ 自动驾驶之心 『大模型』 技术交流群

本文只做学术分享，如有侵权，联系删文

VLM和VLA的区别，有点想以像L2功能，LDW和LKA，FCW和AEB的区别，一个是只有报警，一个是能提供具体执行功能，VLM关注的重点在于环境建模，VLA除了考虑环境建模，还需要关注规划和控制问题，这是两者的区别。所以我理解VLM和VLA其实就是多传感器融合的问题，只是这个传感器换成了包含人类知识的文本。

现在市面是比较热门的技术并没有什么理论创新，只是研发人员对智能驾驶的问题认识越来越深刻，如何解决这些问题呢？这时候正好AI相关的技术成果越来越多，AI踏着七彩祥云来拯救人们了，为这些问题提供了解决方法和手段。

举几个具体的例子：

端到端，无非是以前的感知-预测-决策-规划-控制的架构会造成传递过程中对传感器输入的环境模型存在信息传递损失，而且基于规则的方法中规则是由人来设计的。能不能让信息无损传递并且不去人工设计规则呢，AI提供了解决方案，AI说用端到端，直接从图像到执行指令，信息可以无损传递，并且AI自己去理解规则而不是人工定义规则。
VLM, 上面提到了，我个人理解就是一个传感器融合的问题，以前的传感器融合只有对物理世界的信息采集，融合视觉，毫米波，激光雷达，现在要加入文本，即语言。语言是人类智慧的结晶，能用语言描述出来的即是知识，利用人类积累的知识作为传感器的输入，融合人类知识和观察到的物理世界信息，这个不就是多传感器融合的事情吗？再结合端到端的思想不就是VLA了吗？
无图，现在各家智能驾驶厂商都在推无图技术，要去高精地图和高精定位。但无图并不是什么新的技术，早在1V1R时代，即单摄像头和单雷达，就是无图方案呀，现在无非是现在要开发一个更高级点的算法能建更高级的车道线，更高级的动态目标了，你说不是吗？

现在新技术的发展，是因为随着行业领先者，像特斯拉，华为这些行业领先者对智能驾驶问题的理解越来越深，越来越接近这个问题的本质，而AI正好提供了这些问题的解决方案和方法。所以目前的智能驾驶技术的发展和趋势，依旧还是AI的发展。

其实AI颠覆智能驾驶，是早在mobieye时期就开始了，mobieye依靠它先进的视觉感知技术取代毫米波雷达感知技术占主导地位后就开始了，上面聊到的端到端，VLM，无图技术依旧是AI继续颠覆智能驾驶技术的延续。

所以你现在还在怀疑AI吗？AI必将颠覆世界！

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。 展会将于2025年2月21日至24日在北京新国展二期举行，展览面积达到2万平方米 ，预计吸引来自世界各地的400多家参展商和2万名专业观众。 作为新能源汽车领域的专业展，它将全面展示新能源汽车行业的最新成果和发展趋势， 同期围绕个各关键板块举办论坛，欢迎报名参加。

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门 自动驾驶感知 （ 端到端自动驾驶

职场与思考 | 聊聊VLM/VLA和智驾新技术

正文

请到「今天看啥」查看全文