专栏名称: 佐思汽车研究
佐思产研致力于汽车、TMT、新能源(特别是新能源汽车、智能汽车、车联网)领域的产业研究、专项调研、战略规划和投资咨询服务。
目录
相关文章推荐
武汉本地宝  ·  在武汉,地铁直达的免费图书馆有哪些? ·  2 天前  
武汉本地宝  ·  武汉身份证照片怎么自助上传? ·  4 天前  
武汉本地宝  ·  涵盖入学/住房/落户!武汉居住证的6大用途 ·  2 天前  
武汉本地宝  ·  手慢无!武汉多场大型演唱会即将开票! ·  4 天前  
51好读  ›  专栏  ›  佐思汽车研究

AI大模型及汽车应用研究:推理、降本和可解释性

佐思汽车研究  · 公众号  ·  · 2025-02-18 13:51

正文


佐思汽研发布《 2024-2025年AI大模型及其在汽车领域的应用研究报告 》。


推理能力成为大模型性能提升的驱动引擎


2024下半年以来,国内外大模型公司纷纷推出推理模型,通过以CoT为代表的推理框架,加强大模型对复杂任务处理能力和自主决策能力。


部分大模型公司的推理模型发布情况

来源:佐思汽研《2024-2025年AI大模型及其在汽车领域的应用研究报告》


推理模型的密集上线,是为了提升大模型在复杂场景下的应对能力,同时也为Agent上线奠定基础;具体到汽车行业,汽车大模型推理能力的提升,能够切实解决AI应用场景下的痛点问题,如加强座舱助手对复杂语义的意图识别和提升自动驾驶规划决策中的时空预测场景精度。


部分汽车AI应用场景下对大模型推理能力的需求

整理:佐思汽研


2024年,上车的主流大模型推理技术仍以思维链CoT及其变种为主(如思维树ToT、思维图GoT、思维森林FoT等),在不同的场景下会融合生成模型(如扩散模型)、知识图谱、因果推理模型、累积推理、多模态推理链等技术。


如吉利提出模块化思维语言模型(MeTHanol),让大语言模型合成人类思维并用于监督 LLM 的隐藏层,通过适应日常对话和个性化提示,生成类似人类的思维行为,增强大语言模型的思维和推理能力,并提升可解释性。


MeTHanol(含中间思维层的双层微调和两阶段推理)与标准SFT技术的对比

来源:吉利


2025年,推理技术的重点会向多模态推理转移,常用的训练技术包括指令微调、多模态上下文学习与多模态思维链(M - CoT)等,多通过多模态融合对齐技术与LLM的推理技术结合而成。


部分多模态推理技术

整理:佐思汽研


可解释性成为AI与用户的信任桥梁


在用户体会到AI的“好用”之前,首先需要满足用户对AI的“信任”,所以,2025年,AI系统运行的可解释性成为汽车AI用户基数增长的关键一环,该痛点也可通过长思维链的展示来解决。


AI系统的可解释性可通过数据可解释性、模型可解释性和事后可解释性三个层面分别实现:


AI可解释性的三个层面

来源:IEEE;整理:佐思汽研


以理想为例,理想 L3 智驾通过 “AI 推理可视化技术”,可直观呈现端到端 + VLM 模型的思考过程,涵盖从物理世界感知输入到大模型完成行驶决策输出的全流程,提升用户对智能驾驶系统的信任。


理想L3智驾的可解释性

来源:理想


理想的“AI推理可视化技术”中:


  • Attention(注意力系统)主要负责展示车辆感知到的交通和环境路况信息,能对实时视频流中的交通参与者进行行为评估,并使用热力图展示评估对象。

  • E2E(端到端模型)用于展示行驶轨迹输出的思考过程。模型会思考不同的行驶轨迹,展示 10 个候选输出结果,最终采用概率最大的输出结果作为行驶路径。

  • VLM(视觉语言模型)可展示自身的感知、推理和决策过程,其工作过程使用对话形式展示。


同时,理想Agent“理想同学”也提供可视化的工作流:


“理想同学”工作流

来源:理想


同样通过长思维链进行推理流程拆解的还有各个推理模型的对话界面,以DeepSeek R1为例,在与用户的对话中,会先通过思维链展示每一个节点的决策,并通过自然语言进行说明。


DeepSeek R1长思维链界面

来源:DeepSeek R1对话界面


此外,智谱的GLM-Zero-Preview、阿里的QwQ-32B-Preview、天工4.0 o1等大部分推理模型均支持长思维链推理流程展示。


DeepSeek降低大模型上车的门槛,性能提升与降本兼得


推理能力乃至综合性能的提升,是否意味着需要付出高额成本?从DeepSeek的爆火来看,并不是。2025年初,主机厂先后接入DeepSeek,从应用详情来看,基本上是以提升车载大模型的综合能力为主。


2025年初,部分主机厂与DeepSeek合作情况

整理:佐思汽研


事实上,DeepSeek系列模型推出之前,各大主机厂已经按照自己的节奏有序推进旗下车载AI大模型的开发与迭代工作。以座舱助手为例,部分主机厂的方案已经初步完成构建,并已接入云端大模型供应商试运行或初步敲定供应商,其中不乏阿里云、腾讯云等云服务厂商以及智谱等大模型公司,2025年初再次接入DeepSeek,看重的包括:


  • 强大的推理性能表现,如推理模型R1的性能与OPEN AI 推理模型o1相当,甚至在数学逻辑方面更为突出;

  • 更低的成本,在保证性能的同时,训练与推理成本均保持在同行业较低水平。


DeepSeek R1与OPEN AI o1模型成本的比较

来源:公开信息


以上2点优势均在DeepSeek的技术创新上有所体现:


DeepSeek系列的部分技术对大模型性能和成本的影响

整理:佐思汽研


通过接入DeepSeek,主机厂在部署智驾和座舱助手时,可以切实地降低大模型性能硬件采购、模型训练与维护成本,同时保证性能不下降:


  • 低计算开销技术推动高阶智驾、智舱平权,意味着低算力车载芯片(如边缘计算单元)上也可实现部署高性能模型,降低对高成本GPU的依赖;再结合DualPipe算法、FP8混合精度训练等技术,优化算力利用率,从而实现中低端车型也能部署高阶座舱功能、高阶智驾系统,加速智能座舱的普及。

  • 实时性增强,在汽车行驶环境下,智驾系统需实时处理大量传感器数据,座舱助手需要快速响应用户指令,而车端计算资源有限。DeepSeek 计算开销的降低使传感器数据的处理速度更快,可更高效的利用智驾芯片算力(服务器端训练阶段,DeepSeek实现了对英伟达A100芯片90%的算力利用率),同时降低延迟(如在高通8650平台上,芯片算力同为100TOPS时,使用DeepSeek推理响应时间从20毫秒降至9 - 10毫秒)。在智驾系统中,可确保驾驶决策及时准确,提升驾驶安全性和用户体验。在座舱系统中,支持座舱助手快速响应用户语音指令,实现流畅人机交互。


吉利星睿大模型的系统2接入DeepSeek R1

来源:吉利


《2024-2025年AI大模型及其在汽车领域的应用研究报告》目录

页数:340页


相关定义


01

AI基石大模型概述

1.1 AI大模型简介

AI大模型的定义与特点

AI大模型的分类(按架构)

AI大模型的分类(按任务类型/训练方式)

AI大模型的分类(按监督模式)

AI大模型的分类(按模态)

AI大模型的应用流程


1.2 基石大模型简介

基石大模型的分类

基石大模型在汽车行业的发展现状

基石大模型在汽车的应用场景

应用案例一:LLM在自动驾驶的应用

应用案例二:VFM在自动驾驶的应用

应用案例三:MFM在自动驾驶的应用


02

不同类型的AI基石大模型分析

2.1 LLM

LLM发展历程

LLM关键能力

与其他模型结合案例


2.2 MLLM

多模态大模型发展与简介

多模态大模型 VS 单模态大模型(1)

多模态大模型 VS 单模态大模型(2)

多模态大模型技术全景图

多模态信息表示

多模态大语言模型(MLLM)

多模态大语言模型的架构及核心组件

MLLM的发展现状

不同MLLM代表的数据集评价

MLLM的推理能力

MLLM与Agent的协同作用

MLLM应用案例一:VQA

MLLM应用案例二:自动驾驶中的应用


2.3 VLM与VLA

VLM视觉语言模型发展历史

VLM视觉语言模型应用

VLM视觉语言模型架构

VLM在智驾中的演进路线

VLM应用场景:端到端智驾

VLM应用场景:与高斯框架的结合

从VLM→VLA

VLA模型

VLA原理

VLA模型的分类

VLA应用案例(1)

VLA应用案例(2)

VLA应用案例(3)

VLA应用案例(4)

案例一:EMMA 自动驾驶多模态模型核心功能

案例二:世界模型构建

案例三:提升视觉语言导航能力

案例四:VLA泛化性增强

案例五:VLA计算开销


2.4 世界模型

世界模型关键定义及应用的发展

世界模型基本架构

世界模型框架设定及实施难点

基于Transformer和基于扩散模型的视频生成方法

WorldDreamer 技术原理及路径

世界模型与端到端智驾

世界模型与端到端智驾:数据生成

案例一:特斯拉 World Model

案例二:英伟达

案例三:InfinityDrive

案例四:Worlds Labs 空间智能

案例五:蔚来

案例六:1X 的 “世界模型”


03

AI基石大模型的常用技术

常用大模型算法与架构

不同大模型算法特点与应用场景对比


3.1 大模型架构及相关算法

Transformer:架构与特点

Transformer:算法机制

Transformer:多头注意力机制及其变种特点

KAN:替代MLP的可能性

KAN:与Transformer 架构融合案例

MAMBA:简介

MAMBA:架构基础

MAMBA:最新动态

MAMBA:应用场景

MAMBA:与Transformer 架构融合案例

CNN在大模型时代的适用性

RNN变种在大模型时代的适用性


3.2 视觉处理算法

常用视觉算法

ViT

CLIP场景与特点

CLIP工作流程

LLaVA模型


3.3 训练与微调技术

大模型训练流程

训练案例:吉利汽车的CPT增强方案

指令微调

微调案例:吉利汽车用于多轮对话的微调框架


3.4 强化学习

强化学习简介

强化学习流程

部分强化学习技术路线对比

强化学习案例(1)-(3)


3.5 知识图谱

检索增强生成优化方向

RAG的演进方向(1):KAG

RAG的演进方向(2):CAG

RAG的演进方向(3):GraghRAG

RAG应用实例一:

RAG应用实例二:

RAG应用实例三:理想

RAG应用实例四:吉利

RAG路线对比

Function Call


3.6 推理技术

Transformer大模型推理过程

推理能力评估

大模型推理的三种优化方向

推理任务类型(一)

推理任务类型(二)

推理任务类型(三)

推理常用算法一:COT

推理常用算法二:GOT/TOT

推理常用算法对比

推理常用算法三:PagedAttention

推理技术案例一:吉利

推理技术案例二:NVIDIA


3.7 稀疏化

MoE架构特点

MoE架构原理

MoE训练策略

MoE优势与挑战

不同大模型公司的MoE模型

MoE演化方向


3.8 生成技术

生成模型简介

生成技术对比

生成技术案例一:理想

生成技术案例二:小鹏

生成技术案例三:上汽


04

AI大模型公司研究

主流大模型发展历程

主流大模型与所属公司(国外)

主流大模型与所属公司(国内)

不同大模型评测排名


4.1 OPEN AI

产品布局

产品迭代历程

GPT系列:特点

GPT系列:架构

从GPT-4V到4o

推理模型OPEN AI o1

SORA特点

SORA效果评测

SORA优势与局限


4.2 谷歌

谷歌大模型发展史

典型模型BERT:架构

典型模型BERT:变种

Gemini模型

谷歌大模型在汽车领域的案例


4.3 Meta

LLAMA3.3

LLAMA系列:演进

LLAMA系列:特点

LLAMA系列:训练方式

LLAMA系列:Alpaca

LLAMA系列:Vicuna


4.4 Anthropic

Claude性能评测

基于Claude的PC端Agent


4.5 Mistral AI

Mistral AI专家模型:架构

Mistral AI专家模型:算法特点(1)

Mistral AI专家模型:算法特点(2)

Mistral AI大语言模型:Mistral Large 2


4.6 亚马逊

Amazon Nova产品体系

Amazon AI云在汽车的应用实例(1)-(3)


4.7 Stability AI

Stability AI产品体系

Stable Diffusion 架构基于扩散模型

Stable Diffusion视频生成技术与竞品对比


4.8 xAI

xAI产品体系

xAI模型能力

Grok 3模型能力

Grok-2模型能力

Grok-0/1模型能力


4.9 阿布扎比Technology Innovation Institute

Falcon模型系列迭代历程

Falcon 3系列参数

Falcon 3系列评测


4.10 商汤

商汤主要大模型产品体系

商汤主要大模型产品体系

大模型训练设施

商汤大模型功能场景

商汤大模型技术


4.11 阿里云

阿里云大模型产品体系

阿里云大模型的端云结合方案


4.12 百度云

百度云大模型产品体系


4.13 腾讯云

腾讯云大模型产品体系

腾讯云推理服务方案(1)-(3)

腾讯云大模型生成场景方案

腾讯云大模型问答场景方案


4.14 字节&火山引擎

豆包模型体系

火山引擎座舱功能亮点


4.15 华为

盘古大模型产品体系

盘古大模型合成数据应用案例

盘古大模型LLM架构

盘古大模型能力:多模态技术

盘古大模型能力:思维推理技术

盘古大模型AI云服务


4.16 智谱

智谱产品体系

智谱汽车行业大模型底座

智谱技术特点


4.17 科大讯飞

科大讯飞产品体系

科大讯飞功能与技术亮点

科大讯飞座舱 AI体系


4.18 DeepSeek

DeepSeek产品体系

DeepSeek V3技术启示

DeepSeek R1技术亮点

DeepSeek 应用案例(1)-(3)


05

AI大模型在汽车的应用案例

5.1 座舱案例

联想 AI 车计算框架用于座舱

中科创达魔方大模型的座舱功能

LLM助力Smart Eye DMS/OMS辅助系统

DIT在语音处理场景的应用

云知声山海大模型在座舱的应用

梧桐车联座舱智脑


5.2 智驾案例

理想:自动驾驶领域中的多模态技术(一)

理想:自动驾驶领域中的多模态技术(二)

理想:自动驾驶领域中的多模态技术(三)克服2D局限

理想:数据生成技术(一)

理想:数据生成技术(二)

理想:DriveVLM中的COT技术

理想:视觉处理的应用

理想:数据选择

吉利:视觉处理的应用

吉利:多模态学习框架

Waymo:生成式世界模型GAIA-1

特斯拉:算法架构(含NeRF)

特斯拉:视觉算法的骨架、脖颈、头

特斯拉:视觉系统核心HydraNet

极佳科技世界模型


06

AI大模型的应用趋势

6.1 数据

数据趋势一:

数据趋势二:


6.2 算法

算法趋势一:

算法趋势二:

算法趋势三

算法趋势四:


6.3 算力

算力趋势一:

算力趋势二:


6.4 工程化

工程化趋势一

工程化趋势二


更多佐思报告



佐思2025年研究报告撰写计划

智能网联汽车产业链全景图(2024年12月版)

云端和AI
车云 OTA研究 自动驾驶仿真
汽车云服务研究 自动驾驶地图
TSP与应用服务 V2X和车路协同
数据闭环研究 路侧智能感知
车路云一体化研究
AI大模型 汽车AI大模型研究 AI大模型对整车智能化影响
座舱AI Agent 车载AI Agent产品开发与商业化


智驾系统集成和应用层
自动驾驶应用框架 ADAS与自动驾驶Tier1-国内 自主品牌ADAS
ADAS与自动驾驶Tier1-国外 国外OEM ADAS研究
L3/L4级自动驾驶和初创企业 理想L8/L9功能拆解
智能驾驶Tier1前10强对比 日本Tier1先进技术研究
自动驾驶算法和系统 端到端智驾研究 行泊一体研究
冗余系统 舱泊一体
智驾融合算法 舱行泊融合
汽车视觉算法 无人配送车
领航辅助驾驶(NOA)
感知 毫米波雷达 汽车视觉
激光雷达研究 红外夜视
激光雷达核心部件 车用超声波雷达
软件定义雷达 车载摄像头Tier2
MEMS传感器 前视一体机


智舱系统集成和应用层
智能座舱应用框架 智能座舱Tier1 座舱设计趋势
智能座舱平台
座舱显示 车载VR/AR/MR研究 HUD产业链
仪表和中控显示 电子后视镜
座舱多屏与联屏 行车记录仪
HUD产业研究 智能玻璃
座舱交互 车载语音 车载香氛与空气净化
舱内监控研究






请到「今天看啥」查看全文