专栏名称: 智能车情报局
聚焦智能汽车关键技术与创新产品
目录
相关文章推荐
51好读  ›  专栏  ›  智能车情报局

DeepSeek融入智驾深度解析:芯片,端到端模型,与座舱小模型部署

智能车情报局  · 公众号  ·  · 2025-02-13 20:26

正文

DeepSeek在春节前横空出世后,一直爆火至今。 其价格的普惠,算力消耗的大减,算法里的推理基石,甚至结合此前Waymo使用大语言模型Gemini所调试的端到端的模型EMMA前例,都让DeepSeek给智驾领域带来一些新的可能。


本文分析了当DeepSeek融入智驾后的可能,包括芯片战中的相对少受限,DeepSeek作为智驾端到端模型的可能性,以及其对智驾、具身智能的理解和推理的突破。


01

芯片受限里新的曙光


Deepseek-R1的惊艳之处是通过重新设计训练流程,以少量SFT数据+多轮强化学习的方法(也即大家说的学生模型向教师模型对齐的过程),在提高了模型准确性的同时,也显著降低了内存占用和计算开销。


这其中有三个点需要注意:


一是DeepSeek-R1验证了“算力即性能”的scaling law,研究人员评估,它可能实现了一种 算力与性能的近似线性关系,即每增加一张GPU,模型推理能力就可以得到稳步提升


示意图 图源:甲子光年


二是它 绕过了英伟达的CUDA,进一步释放芯片本身的能力,而不是必须依托英伟达的生态 与华为合作,强化中国企业区别于海外构建超大规模集群的推理方向


英伟达的竞争优势很大程度上源自其CUDA软件和庞大的生态系统,绕过CUDA意味着它可以更少受限地部署到国产芯片上,从而在芯片受限的当下发挥国产芯片的优势,减少美国制裁下的受限程度。


华为在2月5日在昇腾910C上部署好了DeepSeek,Ascend 910C是华为推出的和英伟达H100性能相当的一款芯片,但西方媒体此前报道的其在标准基准测试里只能达到英伟达H100的60%,其能力在英伟达的已有生态下难以完全释放。


同时,华为的昇腾系列芯片被定义为“ 中国企业在执行推理任务时的首选硬件 ”。华为押注,如果模型训练的速度放缓,而聊天机器人等AI应用变得更加普及,那么“推理”会成为未来更大的需求来源。


在DeepSeek的推理模型出现后,二者合作,呈现出中国AI领域不同于美国的变化态势。 过去美国出口管制隐含的前提是将中国AI公司放入与马斯克的X.AI和OpenAI等硅谷竟对放入同一个赛道厮杀,即利用英伟达的最先进的GPU构建超大规模集群。但目前的态势却是:中国公司关注推理,美国公司关注大规模集群,两边是不同的玩法,并且,这样中国企业即使是用性能较弱的芯片,也可能获得比较大的效率提升,也意味着中国企业可以更早实现商业化


三,算力消耗大减。 DeepSeek 671B大模型训练的算力消耗只有Llama 3的1/11 。在这个基础上,其评测跑分跑分不输顶尖闭源模型,同时打下来了价格,进入平衡性能和成本的“ 最佳性价比三角区 ”。


DeepSeek性能价格与竟对比较 图源:Mehul Gupta (DeepSeek V3: The Best Open-Source LLM)


DeepSeek V3 和竟对模型的评测跑分 图源:DeepSeek-V3 Technical Report 论文


总的来说,在算力消耗大幅降低 ,中国AI企业往推理方向调整的趋势下,中国企业的算力利用率将大幅提升,即使是在芯片受限的情况下,在未来也并非没有一争之力。 过渡到智驾领域,需要大规模集群的云端运算,包括模型训练、仿真验证、数据闭环等方面,但推理任务可弹性扩展,构建轻量化模型,云端的架构也可以在CPU+GPU+FPGA的异构计算架构里寻求资源利用率更高的优化方案 最终在芯片受限的有限条件里走一条中国企业突围的路。


02

DeepSeek与一端式端到端模型


智驾方案目前在往端到端方向收敛,从BEV+Transformer的两段式方案往一端式方案迭代。 此前Waymo曾基于Gemini训练了一个一段式的智驾端到端模型EMMA,展示了大语言模型具备成为智驾专业模型的潜力。 并且, EMMA模型可自监督,泛化能力很强,优化训练后在一些表现上甚至超越专业智驾模型 ,这因此展示出DeepSeek训练成智驾模型、且好用的可能性。


我们可以从EMMA的案例里学习如果DeepSeek要成为智驾一段式端到端模型可以做些什么。


底模:

EMMA的底模非常简洁,输入文字信息(T)和视觉信息(V,图像和视频),通过Gemini Nano模型,输出结果轨迹结果(O)即可。


有三个点需要注意:


一是EMMA的输入是 纯视觉 ,没有雷达之类的输入,目前国内的方案大多携带了激光雷达,如果通过DeepSeek往智驾模型跳转,不同输入信息的点云对齐会是大模型调试到专业模型需要注意的点。


二是Gemini Nano在Waymo训练时,已经实现了 多模态输入 ,DeepSeek目前的主要输入版本仍是文字。但这一点问题不大,它不久前开源发布了Janus-Pro多模态模型,我们会在第三部分详述。


三是EMMA在输入视觉信息时,通常要回塞一个 BEV视角 ,因为要感知周边环境,这意味着目前国内通用的BEV+Transformer方案所积累的数据依然有效,且相对便于迁移。


而在对文字信息分维度后,就可以区分车辆的自车状态(T_ego)如目前在BEV中所处的位置,速度加速度等;以及高维指令(T_intent),如左转右转等。


细化后的公式:

最后输出的车的未来轨迹,O_trajectory,就可以直接命令车辆行驶和应对突发情况。同时,基于训练数据,这个O会是一个序列,所以就会有涵盖预计轨迹O’_trajectory和真实轨迹O_trajectory,二者求个Lost,有损失函数,就可以基于损失函数再做调整。


感知和规控也是基于底模进行调整,用底模的单一函数做各个所需功能的细化,因为单一模型,数据会减少额外损耗,整个过程都会更简洁流畅一点。


另外,大语言模型本身附加的裨益是 模型自监督和泛化能力很强 。前者没有人类输入的干扰,能让模型去寻找隐空间里、人类不容易捕捉到的规则。 在Corner Case方面有机会出现超越人类的“涌现” 。后者在EMMA的测试里,在缺乏松鼠训练的情况下让EMMA识别并规避了松鼠,展现出让人惊喜的泛化能力。


而这些和端到端的方案有异曲同工之妙,并由大语言模型天然赋予,也就是说,EMMA能做到的,DeepSeek同样可以做到。


所以,在EMMA的已有尝试下,DeepSeek确实有成为智驾端到端模型的极大可能性。 而DeepSeek本身的COT(链式思考,即DeepSeek每次给出回答前显示的思考秒数和思考过程)能力能赋予DeepSeek超越EMMA的表现能力。


在EMMA的案例里, Waymo用COT让Gemini Nano给出如何行驶的解释,把链式思考引入到端到端规划器的轨迹生成里 。具体来说,EMMA利用现成的感知和预测专家模型来识别关键代理物体,再使用Gemini模型结合精心设计的视觉和文本提示生成全面的场景和代理行为描述。高层驾驶决策通过一个启发式算法计算,该算法分析自车的地面真值轨迹。当 时这是为了解决算法的黑箱问题,但在DeepSeek的专攻推理下,智驾场景的推理能力可以进一步提高,产生优于EMMA的驾驶行驶推理效果。


此外,随着目前大众对DeepSeek的使用,我们可以看到DeepSeek产生的文字幻觉,这幻觉来自于它实际不知道这件事,但会基于推理给出答案,其底层逻辑仍是推理。在智驾的具体、聚焦、重复场景里,对推理能力的需求远大于其它,因为遇到驾驶问题,如何解决依托的就是其推理能力。从这一点来说,推理模型对端到端的裨益会优于其它。


03

多模态+成本颠覆性降低=

智驾&具身智能突破


DeepSeek近日开源发布了 Janus-Pro多模态模型 ,主要有三个要点:


1.多模态融合感知: 能够有效融合视觉和语言信息,使机器人/汽车可以理解复杂复杂的场景描述和人类指令。


2.图像生成:可以生成高质量的图像,对虚拟环境建模、仿真测试等有重要意义。而这两点都是智驾和具身智能非常重要的两点。


3、编码器解耦:a)视觉编码方法解耦,对不同任务进行优化,例如同时提升感知能力和生成能力;b)缓解多模态理解和生成任务间的冲突。


从Janus-Pro发布的这些要点,很容易就能对应到智驾和具身智能使用场景上的一些具体问题。R1的推理能力也很容易匹配这些问题和场景。


1.自主决策:a)通过强化学习自主探索,发展出复杂的推理能力;b)实现机器人自主规划任务和解决复杂问题的能力


2.COT(链式思考):帮助机器人/汽车在执行任务时分解步骤,进行逻辑推理,从而更可靠地完成目标


3.通用性:a)不针对特定任务,追求通用推理能力;b)适用于不同智驾、具身场景


4.低成本训练:冷启动训练减少了对大量标注数据的依赖,降低数据成本,并解决了R1-zero的可读性问题。







请到「今天看啥」查看全文