佐思汽研发布《
2024-2025年AI大模型及其在汽车领域的应用研究报告
》。
2024下半年以来,国内外大模型公司纷纷推出推理模型,通过以CoT为代表的推理框架,加强大模型对复杂任务处理能力和自主决策能力。
来源:佐思汽研《2024-2025年AI大模型及其在汽车领域的应用研究报告》
推理模型的密集上线,是为了提升大模型在复杂场景下的应对能力,同时也为Agent上线奠定基础;具体到汽车行业,汽车大模型推理能力的提升,能够切实解决AI应用场景下的痛点问题,如加强座舱助手对复杂语义的意图识别和提升自动驾驶规划决策中的时空预测场景精度。
2024年,上车的主流大模型推理技术仍以思维链CoT及其变种为主(如思维树ToT、思维图GoT、思维森林FoT等),在不同的场景下会融合生成模型(如扩散模型)、知识图谱、因果推理模型、累积推理、多模态推理链等技术。
如吉利提出模块化思维语言模型(MeTHanol),让大语言模型合成人类思维并用于监督 LLM 的隐藏层,通过适应日常对话和个性化提示,生成类似人类的思维行为,增强大语言模型的思维和推理能力,并提升可解释性。
MeTHanol(含中间思维层的双层微调和两阶段推理)与标准SFT技术的对比
2025年,推理技术的重点会向多模态推理转移,常用的训练技术包括指令微调、多模态上下文学习与多模态思维链(M - CoT)等,多通过多模态融合对齐技术与LLM的推理技术结合而成。
在用户体会到AI的“好用”之前,首先需要满足用户对AI的“信任”,所以,2025年,AI系统运行的可解释性成为汽车AI用户基数增长的关键一环,该痛点也可通过长思维链的展示来解决。
AI系统的可解释性可通过数据可解释性、模型可解释性和事后可解释性三个层面分别实现:
以理想为例,理想 L3 智驾通过 “AI 推理可视化技术”,可直观呈现端到端 + VLM 模型的思考过程,涵盖从物理世界感知输入到大模型完成行驶决策输出的全流程,提升用户对智能驾驶系统的信任。
理想的“AI推理可视化技术”中:
-
Attention(注意力系统)主要负责展示车辆感知到的交通和环境路况信息,能对实时视频流中的交通参与者进行行为评估,并使用热力图展示评估对象。
-
E2E(端到端模型)用于展示行驶轨迹输出的思考过程。模型会思考不同的行驶轨迹,展示 10 个候选输出结果,最终采用概率最大的输出结果作为行驶路径。
-
VLM(视觉语言模型)可展示自身的感知、推理和决策过程,其工作过程使用对话形式展示。
同时,理想Agent“理想同学”也提供可视化的工作流:
同样通过长思维链进行推理流程拆解的还有各个推理模型的对话界面,以DeepSeek R1为例,在与用户的对话中,会先通过思维链展示每一个节点的决策,并通过自然语言进行说明。
此外,智谱的GLM-Zero-Preview、阿里的QwQ-32B-Preview、天工4.0 o1等大部分推理模型均支持长思维链推理流程展示。
DeepSeek降低大模型上车的门槛,性能提升与降本兼得
推理能力乃至综合性能的提升,是否意味着需要付出高额成本?从DeepSeek的爆火来看,并不是。2025年初,主机厂先后接入DeepSeek,从应用详情来看,基本上是以提升车载大模型的综合能力为主。
2025年初,部分主机厂与DeepSeek合作情况
事实上,DeepSeek系列模型推出之前,各大主机厂已经按照自己的节奏有序推进旗下车载AI大模型的开发与迭代工作。以座舱助手为例,部分主机厂的方案已经初步完成构建,并已接入云端大模型供应商试运行或初步敲定供应商,其中不乏阿里云、腾讯云等云服务厂商以及智谱等大模型公司,2025年初再次接入DeepSeek,看重的包括:
DeepSeek R1与OPEN AI o1模型成本的比较
以上2点优势均在DeepSeek的技术创新上有所体现:
DeepSeek系列的部分技术对大模型性能和成本的影响
通过接入DeepSeek,主机厂在部署智驾和座舱助手时,可以切实地降低大模型性能硬件采购、模型训练与维护成本,同时保证性能不下降:
-
低计算开销技术推动高阶智驾、智舱平权,意味着低算力车载芯片(如边缘计算单元)上也可实现部署高性能模型,降低对高成本GPU的依赖;再结合DualPipe算法、FP8混合精度训练等技术,优化算力利用率,从而实现中低端车型也能部署高阶座舱功能、高阶智驾系统,加速智能座舱的普及。
-
实时性增强,在汽车行驶环境下,智驾系统需实时处理大量传感器数据,座舱助手需要快速响应用户指令,而车端计算资源有限。DeepSeek 计算开销的降低使传感器数据的处理速度更快,可更高效的利用智驾芯片算力(服务器端训练阶段,DeepSeek实现了对英伟达A100芯片90%的算力利用率),同时降低延迟(如在高通8650平台上,芯片算力同为100TOPS时,使用DeepSeek推理响应时间从20毫秒降至9 - 10毫秒)。在智驾系统中,可确保驾驶决策及时准确,提升驾驶安全性和用户体验。在座舱系统中,支持座舱助手快速响应用户语音指令,实现流畅人机交互。
《2024-2025年AI大模型及其在汽车领域的应用研究报告》目录
1.1 AI大模型简介
AI大模型的定义与特点
AI大模型的分类(按架构)
AI大模型的分类(按任务类型/训练方式)
AI大模型的分类(按监督模式)
AI大模型的分类(按模态)
AI大模型的应用流程
1.2 基石大模型简介
基石大模型的分类
基石大模型在汽车行业的发展现状
基石大模型在汽车的应用场景
应用案例一:LLM在自动驾驶的应用
应用案例二:VFM在自动驾驶的应用
应用案例三:MFM在自动驾驶的应用
2.1 LLM
LLM发展历程
LLM关键能力
与其他模型结合案例
2.2 MLLM
多模态大模型发展与简介
多模态大模型 VS 单模态大模型(1)
多模态大模型 VS 单模态大模型(2)
多模态大模型技术全景图
多模态信息表示
多模态大语言模型(MLLM)
多模态大语言模型的架构及核心组件
MLLM的发展现状
不同MLLM代表的数据集评价
MLLM的推理能力
MLLM与Agent的协同作用
MLLM应用案例一:VQA
MLLM应用案例二:自动驾驶中的应用
2.3 VLM与VLA
VLM视觉语言模型发展历史
VLM视觉语言模型应用
VLM视觉语言模型架构
VLM在智驾中的演进路线
VLM应用场景:端到端智驾
VLM应用场景:与高斯框架的结合
从VLM→VLA
VLA模型
VLA原理
VLA模型的分类
VLA应用案例(1)
VLA应用案例(2)
VLA应用案例(3)
VLA应用案例(4)
案例一:EMMA 自动驾驶多模态模型核心功能
案例二:世界模型构建
案例三:提升视觉语言导航能力
案例四:VLA泛化性增强
案例五:VLA计算开销
2.4 世界模型
世界模型关键定义及应用的发展
世界模型基本架构
世界模型框架设定及实施难点
基于Transformer和基于扩散模型的视频生成方法
WorldDreamer 技术原理及路径
世界模型与端到端智驾
世界模型与端到端智驾:数据生成
案例一:特斯拉 World Model
案例二:英伟达
案例三:InfinityDrive
案例四:Worlds Labs 空间智能
案例五:蔚来
案例六:1X 的 “世界模型”
常用大模型算法与架构
不同大模型算法特点与应用场景对比
3.1 大模型架构及相关算法
Transformer:架构与特点
Transformer:算法机制
Transformer:多头注意力机制及其变种特点
KAN:替代MLP的可能性
KAN:与Transformer 架构融合案例
MAMBA:简介
MAMBA:架构基础
MAMBA:最新动态
MAMBA:应用场景
MAMBA:与Transformer 架构融合案例
CNN在大模型时代的适用性
RNN变种在大模型时代的适用性
3.2 视觉处理算法
常用视觉算法
ViT
CLIP场景与特点
CLIP工作流程
LLaVA模型
3.3 训练与微调技术
大模型训练流程
训练案例:吉利汽车的CPT增强方案
指令微调
微调案例:吉利汽车用于多轮对话的微调框架
3.4 强化学习
强化学习简介
强化学习流程
部分强化学习技术路线对比
强化学习案例(1)-(3)
3.5 知识图谱
检索增强生成优化方向
RAG的演进方向(1):KAG
RAG的演进方向(2):CAG
RAG的演进方向(3):GraghRAG
RAG应用实例一:
RAG应用实例二:
RAG应用实例三:理想
RAG应用实例四:吉利
RAG路线对比
Function Call
3.6 推理技术
Transformer大模型推理过程
推理能力评估
大模型推理的三种优化方向
推理任务类型(一)
推理任务类型(二)
推理任务类型(三)
推理常用算法一:COT
推理常用算法二:GOT/TOT
推理常用算法对比
推理常用算法三:PagedAttention
推理技术案例一:吉利
推理技术案例二:NVIDIA
3.7 稀疏化
MoE架构特点
MoE架构原理
MoE训练策略
MoE优势与挑战
不同大模型公司的MoE模型
MoE演化方向
3.8 生成技术
生成模型简介
生成技术对比
生成技术案例一:理想
生成技术案例二:小鹏
生成技术案例三:上汽
主流大模型发展历程
主流大模型与所属公司(国外)
主流大模型与所属公司(国内)
不同大模型评测排名
4.1 OPEN AI
产品布局
产品迭代历程
GPT系列:特点
GPT系列:架构
从GPT-4V到4o
推理模型OPEN AI o1
SORA特点
SORA效果评测
SORA优势与局限
4.2 谷歌
谷歌大模型发展史
典型模型BERT:架构
典型模型BERT:变种
Gemini模型
谷歌大模型在汽车领域的案例
4.3 Meta
LLAMA3.3
LLAMA系列:演进
LLAMA系列:特点
LLAMA系列:训练方式
LLAMA系列:Alpaca
LLAMA系列:Vicuna
4.4 Anthropic
Claude性能评测
基于Claude的PC端Agent
4.5 Mistral AI
Mistral AI专家模型:架构
Mistral AI专家模型:算法特点(1)
Mistral AI专家模型:算法特点(2)
Mistral AI大语言模型:Mistral Large 2
4.6 亚马逊
Amazon Nova产品体系
Amazon AI云在汽车的应用实例(1)-(3)
4.7 Stability AI
Stability AI产品体系
Stable Diffusion 架构基于扩散模型
Stable Diffusion视频生成技术与竞品对比
4.8 xAI
xAI产品体系
xAI模型能力
Grok 3模型能力
Grok-2模型能力
Grok-0/1模型能力
4.9 阿布扎比Technology Innovation Institute
Falcon模型系列迭代历程
Falcon 3系列参数
Falcon 3系列评测
4.10 商汤
商汤主要大模型产品体系
商汤主要大模型产品体系
大模型训练设施
商汤大模型功能场景
商汤大模型技术
4.11 阿里云
阿里云大模型产品体系
阿里云大模型的端云结合方案
4.12 百度云
百度云大模型产品体系
4.13 腾讯云
腾讯云大模型产品体系
腾讯云推理服务方案(1)-(3)
腾讯云大模型生成场景方案
腾讯云大模型问答场景方案
4.14 字节&火山引擎
豆包模型体系
火山引擎座舱功能亮点
4.15 华为
盘古大模型产品体系
盘古大模型合成数据应用案例
盘古大模型LLM架构
盘古大模型能力:多模态技术
盘古大模型能力:思维推理技术
盘古大模型AI云服务
4.16 智谱
智谱产品体系
智谱汽车行业大模型底座
智谱技术特点
4.17 科大讯飞
科大讯飞产品体系
科大讯飞功能与技术亮点
科大讯飞座舱 AI体系
4.18 DeepSeek
DeepSeek产品体系
DeepSeek V3技术启示
DeepSeek R1技术亮点
DeepSeek 应用案例(1)-(3)
5.1 座舱案例
联想 AI 车计算框架用于座舱
中科创达魔方大模型的座舱功能
LLM助力Smart Eye DMS/OMS辅助系统
DIT在语音处理场景的应用
云知声山海大模型在座舱的应用
梧桐车联座舱智脑
5.2 智驾案例
理想:自动驾驶领域中的多模态技术(一)
理想:自动驾驶领域中的多模态技术(二)
理想:自动驾驶领域中的多模态技术(三)克服2D局限
理想:数据生成技术(一)
理想:数据生成技术(二)
理想:DriveVLM中的COT技术
理想:视觉处理的应用
理想:数据选择
吉利:视觉处理的应用
吉利:多模态学习框架
Waymo:生成式世界模型GAIA-1
特斯拉:算法架构(含NeRF)
特斯拉:视觉算法的骨架、脖颈、头
特斯拉:视觉系统核心HydraNet
极佳科技世界模型
6.1 数据
数据趋势一:
数据趋势二:
6.2 算法
算法趋势一:
算法趋势二:
算法趋势三
算法趋势四:
6.3 算力
算力趋势一:
算力趋势二:
6.4 工程化
工程化趋势一
工程化趋势二