专栏名称: 智能车情报局
聚焦智能汽车关键技术与创新产品
目录
相关文章推荐
新华网财经  ·  微信又出新功能!网友:好方便,但…… ·  昨天  
新华网财经  ·  微信又出新功能!网友:好方便,但…… ·  昨天  
山西高院  ·  山河来信,待你启封! ·  昨天  
山西高院  ·  山河来信,待你启封! ·  昨天  
西安头条  ·  被指吃相难看!爱奇艺回应 ·  昨天  
法治网  ·  “DeepSeek告诉我得用什么药”,人工智 ... ·  2 天前  
法治网  ·  “DeepSeek告诉我得用什么药”,人工智 ... ·  2 天前  
政法频道  ·  长沙奥体中心首次曝光! ·  3 天前  
政法频道  ·  长沙奥体中心首次曝光! ·  3 天前  
51好读  ›  专栏  ›  智能车情报局

周光最新海外演讲:VLA的关键挑战,以及仿真数据的短板

智能车情报局  · 公众号  ·  · 2025-02-17 19:27

正文

1月22日,在第17届日本国际汽车工业技术展上,元戎启行CEO周光发表了一场演讲,对VLA模型(Vision Language Action Model,视觉语言动作模型)的特点进行了简要介绍,并宣布该公司已与某头部车企达成量产合作,共同推出搭载VLA模型的智能驾驶汽车,该车配备英伟达Thor芯片,将于今年投入消费者市场。

本文是对周光的演讲内容进行的翻译和整理,供大家参考。


01

高精地图就像「作弊」


“高精度地图虽然在十年前非常有用,能帮助车辆定位,但这种方式更像是一种‘作弊’,因为它只能在限定范围内规避一定问题。”周光表示,最典型的案例就是传统基于规则的Robotaxi,至今仍只能在特定区域运营。


另外,自然还有高精度地图一直被诟病的「高成本」、「难以保持鲜度」等问题。


相比来看,无图化的「端到端」方案的优势在于:


  • 实时感知和重建: 车辆能够实时感知周围环境,并根据感知结果做出决策,而不是依赖于预先绘制的高精度地图。这使得车辆能够适应各种突发情况和道路变化。

  • 处理长尾情况: 传统基于规则的自动驾驶系统往往难以处理长尾情况,因为这些情况通常没有在规则中明确列出。而端到端解决方案则能够通过学习大量数据来适应这些情况。

  • 可扩展性和泛化性: 由于基于神经网络,端到端解决方案可以很容易地扩展到数百万辆车上,并且具有很强的泛化能力,可以在全球范围内使用。

02

VLA,将让智驾更强大


周光称,在过去的两年里,自动驾驶技术的进步远远超过了过去的20年,尤其是在结合了大语言模型之后。

2022年,元戎启行(以下简称「元戎」)不需要高精地图和高精定位,并将多个模块全部融合到一个通用感知网络中。该网络可以检测到3D动态障碍物和静态物体,例如地标、边界等等。

同年,元戎又开始使用深度学习方法来处理决策和规划,但那时性能还不够理想。



2023年,元戎进行了端到端的初步测试,并于2024年开始开发下一代端到端技术——视觉-语言-动作模型(VLA)。


“VLA与最新的生成式大模型相结合,让自动驾驶功能更强大。今年,这一新技术将被集成到量产车中,并实现交付。“周光说道。


他介绍称,传统的感知网络利用的是 结构数据 。而神经网络会使用原始向量,而且是 高维向量 ,这些向量在神经模块之间传递信息,并通过超高带宽进行信息交换,避免信息丢失。


元戎的DeepRoute IO正是这样一个系统——IO代表输入和输出,即输入数据,输出控制命令,这意味着它是一个单一的神经网络。

03

传统方案与VLA、端到端的本质区别


“我认为VLA是端到端2.0。在第一代端到端的架构中,已经没有太多代码了。它就像神经网络或者大语言模型一样,从底端直接输入,并输出结果。”

要想搞清楚VLA方案,首先要搞清楚 「输入、输出、视觉编码器、文本编码器,轨迹解码器」 ,以及它们如何工作。



周光解释称,所谓的「输入」,就是从摄像头、导航系统、地图等接收的「输入」信号。输入要通过两个编码器,文本编码器(text encoder)和视觉编码器(vision encoder)。

视觉编码器对图像进行编码,并从中提取高级特征;而文本编码器,更多代表着用户与汽车的交互。


“在传统方案中,会生成各类特征。虽然看起来简单,实际上它背后的网络复杂得多。它结合了文本特征等,然后通过模型进行输出。”


至于「输出」,是由 轨迹解码器(trajectory decoder) 把模型的输出转换成系统能理解的轨迹信号 ,它负责告诉用户接下来10秒,乃至30秒中,车辆会做什么,也就是给出带有速度和路径的轨迹。


同时, 「文本解码器」 也会解释下一步动作的原因。例如,“有两个行人正在试图过马路,车辆需要减速并等他们通过。”


相比之下,基于端到端技术的自动驾驶解决方案则更加高效,这种方案通过实时感知和重建世界,能够处理各种复杂和长尾的情况。

“由于它是基于神经网络的,因此具有很强的泛化能力,可以适应全球范围内的不同道路和环境。”


周光表示,在端到端技术加持下,轨迹解码器就像人类大脑一样工作,而不是像规则。


他介绍称,VLA的关键特性是 「思维链」 :“因为现实世界要复杂得多,规则库无法应对这种复杂度。你需要通过多重信息来决定如何通过复杂场景,也需要不断地与其他车辆博弈、交互。”


他为VLA的思维链举了个例子,例如潮汐车道,基于VLA的智能驾驶车辆,能通过文本等看懂可逆车道的道路标志,并从多重信息中确认此时的潮汐车道是否可行驶,并通过转向灯等与其他车辆交互,随即变换车道,进行转向,最终行驶至潮汐车道中。

这一系列动作都是使用VLA进行的,它可以利用类人的思维,通过对全局上下文的了解,去了解车道的情况,与其他车辆交互,并做出最优的、安全的决策。

在周光看来,VLA相比目前的端到端具备两点关键提升:

首先, 它更具适应性 ,也就是VLA可以适应并处理复杂的现实世界场景;


其次, 是透明度 ,也就是它会解释动作及轨迹原因,“传统的数据系统需要解释代码,但是作为人类,我可以自然解释操控原因,这就是 高级推理 。VLA正是具备了这样的高级推理,因为它采用了全局信息和长上下文(context)信息,它可以做出更好的决策并提高安全性。

04

VLA的关键挑战


然而,VLA技术仍然存在许多重大挑战。首当其冲的,自然还是数据,而且周光还强调了 真实数据 的重要性。

“真实世界的数据是不同的,它涵盖了大量的环境变化,例如闪电、天气等。这就是我们为什么使用真实世界数据的原因,因为 合成数据无法完整覆盖这些变化 。还有更重要的一点,就是 合成数据缺乏关键状态 。例如行人违规横穿马路等场景,是在模拟中是无法得到的。”


对于这点,周光认为,量产车的规模,决定了迭代的速度:“我们每个月出货量都在万台规模,拥有大量数据来开发VLA模型。在中国,我们在全国范围内进行测试,收集数据。由于中国各地的天气条件、不同城市都有差异,我们可以覆盖各种场景,并收集足够的数据用于训练。”


另外,「实时响应」也是一个很大的挑战。大模型需要数十亿量级的参数,以及数千种类型的计算。所以元戎选择与英伟达共同开发VLA模型,再加上元戎自己的推理引擎,可通过AI推理最大限度地提高模型性能。






请到「今天看啥」查看全文