-
DeepSeek-R1-Zero:纯RL强化学习,展现了自我进化能力,但存在可读性问题,比如可能夹杂两种语言,语法与格式错误。
-
DeepSeek-R1:冷启动 + 多阶段训练,在多个推理benchmark上取得了和OpenAI-o1-1217相近的水平,可算纯粹强化学习的改进。
-
小模型蒸馏:知识蒸馏后的小模型在推理benchmark上也表现出强大的竞争力,也有可能部署在边缘比如车端。注意这些小模型本质上还是Qwen-2.5或Llama 3,只是经过了DeepSeek R1的300K样本蒸馏增强。
目前,LLM大模型都是分两阶段:第一阶段是无监督的海量免费互联网数据做预训练;第二阶段是用精确人工标注的高质量数据做SFT监督微调,这些高质量数据成本高且比较费时间。OpenAI 的 o1 系列模型通过增加思维链(Chain-of-Thought, CoT)推理过程的长度来提升推理能力,但如何有效进行测试时(test-time)扩展仍是开放问题。很多人立刻想到了无监督的强化学习来解决第二阶段成本高的问题,但仍需要SFT。纯强化学习效果如何?DeepSeek是第一个尝试的,DeepSeek-R1-Zero 纯强化学习:直接在基础模型上应用强化学习,不使用任何SFT数据。探索LLM在纯RL环境下的自演化过程,使其自主发展推理能力。DeepSeek-R1冷启动 + 多阶段训练:使用少量高质量的CoT数据进行冷启动,预热模型,进行面向推理的强化学习,提升模型在推理任务上的性能;使用拒绝采样和监督微调,进一步提升模型的综合能力;再次进行强化学习,使模型在所有场景下都表现良好。
LLM领域内的强化学习一般采用Proximal Policy Optimization (PPO) ,这是一种广泛使用的强化学习算法,尤其适用于对LLMs进行微调。PPO的目标是通过最大化替代目标函数来优化策略模型。PPO中的值函数通常是一个与策略模型大小相当的模型,这带来了显著的内存和计算负担。此外,在LLMs的上下文中,值函数在训练过程中被用作优势计算中的Baseline,但通常只有最后一个 token会被奖励模型赋予奖励分数,这可能使得值函数的训练变得复杂。为解决这些问题,DeepSeek提出了Group Relative Policy Optimization (GRPO),不再需要像PPO那样加入额外的价值函数近似,而是直接使用多个采样输出的平均奖励作为Baseline,显著减少了训练资源的使用。最终取得了成功。
商汤和地平线借鉴DeepSeek的思路,提出了用强化学习来增强自动驾驶的方案,Waymo则在2023年就提出了类似的方案,比DeepSeek要早约1年半。
强化学习按有无模型分为有模型强化学习(Model-Based Reinforcement Learning,MBRL)和无模型强化学习(Model-Free RL),MBRL实际就可以等同于世界模型,无模型强化学习直接学习策略函数或价值函数,并没有对环境进行建模。也就是说,只能通过和真实环境交互来采集数据,效率极低,大概是人类的数百万分之一的效率。MBRL算法的核心思想是,通过学习环境的动态模型和奖励函数,利用这些模型进行规划与决策,从而提高样本效率。与Model-Free RL直接学习策略或价值函数不同,MBRL首先学习环境的内在模型,然后利用这个模型来指导策略的学习和执行。这里的核心在于「环境模型」,指的是环境的动态模型和奖励函数。更具体地说,动态模型描述了在给定状态和动作的情况下,环境将如何转移到下一个状态;而奖励函数则描述了在给定状态和动作的情况下,智能体将获得多少奖励,即马尔科夫决策模型MDP。
通常提到强化学习都特指无模型的强化学习。
图片来源:网络
目前,端到端自动驾驶有三种策略:模仿学习(IL)的场景克隆,简称BC,是目前最常用的;逆最优控制(IOC),也称为逆强化学习(IRL),是另一种利用专家演示学习奖励函数的IL方法,提供多种路径,非监督学习,降低对数据集的依赖;最后就是强化学习,简称RL。
BC是从专家(如人类司机)的示范(轨迹)中直接学习策略的方法。在自动驾驶的背景下,行为克隆涉及从大量的驾驶数据中学习,以模仿人类的驾驶行为。这种方法简单且计算效率高,但可能无法处理未见过的情境或异常情况。IL主要捕捉观察(状态)和动作之间的相关性,而不是因果关系。因此经过IL训练的策略可能难以识别规划决策背后的真正因果因素,导致捷径学习,例如仅仅从历史轨迹推断未来轨迹。此外,由于IL训练数据主要包含常见的驾驶行为,不足以覆盖长尾分布,经过IL训练的策略往往收敛到平凡解,缺乏对碰撞等安全关键事件的足够敏感性。IL策略以开环方式使用分布良好的驾驶演示进行训练。然而,现实世界的驾驶是一个闭环过程,每一步的小轨迹误差会随着时间累积,导致复合误差和分布外场景。IL训练的策略在这些未见过的情况下常常表现不佳,引发了对其鲁棒性的担忧。
强化学习模型在模拟环境中与交通场景进行交互,通过RL的奖励机制来调整和优化行为策略。这种方法可以使模型学会在复杂和动态的交通环境中做出更好的决策。强化学习缺点是效率低下,需要大量的试错才能得出正确的模型。再有就是无法使用真实世界驾驶环境进行训练,因为真实世界驾驶环境是无法承受频繁试错的,那样成本太高,目前所谓的仿真都是基于传感器的,一般都是基于游戏引擎,真实世界是基于object而非传感器。换句话说目前的仿真都不够“真”。还有就是人类对齐问题,RL中的探索过程可能导致偏离类人行为的策略,破坏动作序列的平滑性。为了解决这个问题,在RL训练期间将模仿学习作为正则化项纳入,帮助保持与人类驾驶行为的相似性。
在2025年2月22日的商汤大模型生产力论坛上,商汤绝影CEO,商汤科技联合创始人、首席科学家王晓刚重磅发布了行业首个「与世界模型协同交互的端到端自动驾驶路线R-UniAD」,通过构建世界模型生成在线交互的仿真环境,以此进行端到端模型的强化学习训练。
R-UniAD就是通过高质量数据进行冷启动,用模仿学习的方式训练出一个端到端基础模型,再通过世界模型生成的视频数据,使用强化学习方法进行训练。据测算,小样本多阶段学习的技术路线能让端到端自动驾驶的数据需求降低一个数量级。
R-UniAD
图片来源:商汤绝影
商汤绝影的R-UniAD是「多阶段强化学习」端到端自动驾驶技术路线,具体分为三个阶段,首先是依靠冷启动数据通过模仿学习进行云端的端到端自动驾驶大模型训练;然后基于强化学习,让云端的端到端大模型与世界模型协同交互,持续提升端到端模型的性能;最后云端大模型通过高效蒸馏的方式,实现高性能端到端自动驾驶小模型的车端部署。
地平线和华中科技大学则提出RAD。
图片来源:论文《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》
Waymo的解决办法是将模仿学习和强化学习结合,强化学习做微调,Waymo为此打造了eWaymo Open Sim Agents Challenge,简称WOSAC。Waymo的论文有两篇,一篇是Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving。另一篇是The Waymo Open Sim Agents Challenge,理想、地平线的思路也是将模仿学习和强化学习结合,并尽量模拟真实物理世界,特别是3D方面,地平线的最新论文RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning,主要就是用3D高斯泼溅尽量仿真。国内研究者的水平显然在Waymo之上,更不要说特斯拉了。
RAD框架
图片来源:论文《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》
这里地平线并未使用大模型,大模型特别是VLM这种,离实用相当遥远,并且VLM擅长的不是高频输出waypoint而是低频输出车辆行为解释即VQA。首先使用BEV编码器将多视图图像特征从透视视图转换为鸟瞰图,从而在BEV空间中获得一个特征图。该特征图随后用于学习实例级地图特征和智能体特征。BEV特征使用传统CNN骨干网,然后输出多个任务头,包括地图和智能体Head。
地图Head任务
:BEV特征图输入Token化,经过地图编码器,重建驾驶场景的矢量化高精地图元素,包括车道中心线、车道分隔线、道路边界、箭头、交通信号灯等,实际就是地平线以前提出的MapTR。
智能体head任务
:所谓智能体就是参与交通的能够自主行动的物体或人,特征图输入Token化,预测其他交通参与者的运动信息,包括位置、方向、大小、速度和多模态未来轨迹。地平线称之为PIP,即Perceive, Interact, Predict,详细可见地平线的论文《Perceive, Interact, Predict: Learning Dynamic and Static Clues for End-to-End Motion Prediction》。还使用单独的图像编码器将原始图像转换为图像标记。这些图像标记为规划提供了密集而丰富的场景信息,与实例级标记形成互补。
动作空间:为了加速强化学习训练的收敛,地平线设计了一种解耦的离散动作表示。将动作分为两个独立的部分:横向动作和纵向动作。动作空间是在0.5秒的短时间范围内构建的,在此期间,通过假设车辆的线性速度和角速度恒定来近似其运动。在这个假设下,横向动作和纵向动作可以根据当前的线性速度和角速度直接计算得出。通过将解耦与有限的时间范围和简化的运动模型相结合,地平线的方法有效地降低了动作空间的维度,加速了训练收敛,提高了训练效率。
规划任务由地图标记、智能体标记和图像标记组成。初始化一个规划嵌入,一个级联的Transformer解码器以规划嵌入作为查询Query,场景表示作为键K和值V。解码器的输出然后与导航信息和自车状态相结合,以输出横向动作和纵向动作的概率分布:规划头还输出值函数,分别用于估计横向和纵向动作的预期累积奖励:值函数用于强化学习训练。
采用三阶段训练范式:感知预训练、规划预训练和强化后训练。
-
感知预训练:图像中的信息是稀疏且低级的。在第一阶段,地图Head和智能体Head明确输出地图元素和智能体运动信息,这些信息由真实标签进行监督训练。因此,地图标记和智能体标记隐式编码了相应的高级信息。在这个阶段,只更新BEV编码器、地图头和智能体头的参数。
-
规划预训练:在第二阶段,为了防止强化学习训练的冷启动不稳定,首先进行模仿学习,基于专家在现实世界中的大规模驾驶演示来初始化动作的概率分布。在这个阶段,只更新图像编码器和规划头的参数,而BEV编码器、地图头和智能体头的参数被冻结。感知任务和规划任务的优化目标可能会相互冲突。然而,通过将训练阶段和参数解耦,这种冲突在很大程度上得以避免。
-
强化后训练:在强化后训练中,强化学习和模仿学习协同微调分布。强化学习旨在引导策略对关键风险事件敏感,并适应分布外的情况。模仿学习作为正则化项,使策略的行为与人类行为保持相似。
图片来源:论文《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》
地平线与华中科技大学自建了一个高风险碰撞视频数据集,对于每个视频片段训练一个独立的3DGS模型,对该片段进行重建,并将其作为数字驾驶环境。如上图所示,地平线设置了N个并行工作进程。每个工作进程随机采样一个3DGS环境并开始滚动,即AD策略控制自车移动,并与3DGS环境进行迭代交互。在这个3DGS环境的滚动过程结束后,生成的滚动数据,记录在滚动缓冲区中,并且该工作进程将采样一个新的3DGS环境进行下一轮滚动。
奖励是训练信号的来源,它决定了强化学习的优化方向。奖励函数旨在通过惩罚不安全行为和鼓励与专家轨迹对齐来引导自车的行为。它由四个奖励组件组成:(1)与动态障碍物碰撞、(2)与静态障碍物碰撞、(3)与专家轨迹的位置偏差、(4)与专家轨迹的航向偏差:
图片来源:Waymo论文《Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving》
见上图,与地平线的近似,所不同的是Waymo构建了一个WOSAC即模拟智能体交通仿真,WOSAC挑战模拟了一个复杂的交通环境,其中包括多种类型的交通参与者和多样的驾驶情境。挑战的目标是生成能够准确反映人类驾驶行为的模拟代理(sim agents),以便在自动驾驶系统的开发和测试中使用。主要性能评估指标包括碰撞率、遵循交通规则的比例、行驶效率等。这些指标能够全面反映模型在模拟环境中的驾驶行为质量和安全性。
通过强化学习微调,Waymo的模型在WOSAC挑战中的碰撞率从基线的5%降至1.5%。这一显著的降低证明了强化学习在提高模型安全性方面的有效性。
-
碰撞率降低的原因分析:碰撞率的降低主要归功于强化学习微调过程中对模型行为的精细调整。在模拟环境中,模型通过与环境的交互学习到了避免碰撞的策略,这些策略随后被应用到了实际的驾驶场景中。
-
其他关键指标的改进:除了碰撞率之外,Waymo的模型在其他关键指标上也表现出了改进。例如,遵循交通规则的比例从基线的80%提升至90%,这表明模型在强化学习微调后能够更好地理解和遵守交通规则。行驶效率的提升则体现在平均行驶时间的缩短和路径选择的优化上。
最后来说世界模型(World Model)。世界模型能够模拟环境的行为,从而允许智能体在虚拟环境中进行规划和学习,显著提高了学习效率和安全性。世界模型用途:决策规划(Decision-Making Planning):智能体可以利用世界模型预测未来状态,从而选择最优的动作序列。后台规划(Background Planning):智能体可以在与环境交互的同时,利用世界模型进行离线学习,提高策略的泛化能力。
根据模型学习方式的不同,世界模型可以分为两大类:生成式世界模型(Generative World Models)和非生成式世界模型(Non-Generative World Models)。对自动驾驶来说,生成世界模型就是输入prompt关键词后生成你想要的视频数据。
世界模型可以生成高质量自动驾驶数据,让那些所谓巨大保有量带来的庞大数据优势完全消失,因为世界模型可以提供高质量corner case数据,而那些所谓巨大保有量带来的庞大数据中不到1%是corner case,超过99%的数据几乎毫无价值,因为它们是单一重复场景的。
也可以用世界模型生成长尾视频来训练端到端模型,与用无模型强化学习微调还是有一点差距,但是效率更高。当然世界模型生成长尾视频目前也面临分辨率低,帧率低,时间短,不够3D真实等缺点,华为、理想、商汤也在这方面倾注了不少心血。
DeepSeek的成功表明先发未必是优势,科技最终都会体现在效率提升上,数据量和数据中心的算力无关紧要,数据质量和训练方法才是关键。智能驾驶领域,国内拥有复杂程度远超美国的交通场景,中国智能驾驶的研究热度和成绩也远超美国,完全不必妄自菲薄。
免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。
佐思2025年研究报告撰写计划