专栏名称: 电动汽车百人会
中国电动汽车百人会官方账号
目录
相关文章推荐
手艺门  ·  你的收纳小能手,让家不再凌乱~ ·  昨天  
手艺门  ·  你的收纳小能手,让家不再凌乱~ ·  昨天  
每天发现一家店  ·  低价捡漏 - 0205 ·  3 天前  
小众软件  ·  另外两件事[250205] ·  3 天前  
51好读  ›  专栏  ›  电动汽车百人会

大模型“上车”,面临这些难题

电动汽车百人会  · 公众号  ·  · 2025-01-21 08:00

正文


“电气化为主导的新 技术路线改变了全球汽车产业的发展格局,中国的车企开始迅速崛起。在电动化尚未完成时,智能化的浪潮又来了。在智能化演进未完成时,紧接着以大算力、大数据、大模型为主要代表的人工智能也开始和汽车融合, 推动智能汽车再一次的代际升级, 成为驱动汽车变革新的决定 性因素。” 中国电动汽车百人会副理事长兼秘书长张永伟 表示。


现阶段,已有不少车型通过多种形式完成了大模型的量产上车,最直接的就是小米汽车和鸿蒙智行车型,其AI大模型本身就处于业内领先水准,而且还结合驾驶者各种特定需求实现功能控制,比如“车窗打开一半”“外后视镜角度调节”“打开手机二维码”等,甚至还能完成车主的提问式功能。


除此之外,小鹏的AI天玑系统、蔚来大模型NOMI GPT、理想认知大模型Mind GPT都具备类似的功能,北汽、广汽等传统车企也在发力大模型。当前国产AI大模型开始加速“上车”,人工智能正以更加触手可及的方式走进现实生活。车百智库在研报 《大模型在汽车领域的应用与发展建议》 里研究了大模型给汽车行业带来的新价值以及挑战。

大模型对汽车智能化发展的价值正在凸显


汽车是大模型应用探索的绝佳载体。 电动化和智能化的跨越式发展,使得汽车在机械属性基础上增加了科技属性和消费属性,成为前沿创新技术的最佳集成器。未来评价汽车主要关注的是其技术创新和产品创新的“价值”,是其能否充分承载大模型的技术特性和优势。另外,汽车的全生命周期包括研发、生产、销售、使用等众多环节,涉及大量数据和复杂决策过程,应用场景丰富,这为大模型的应用落地提供了广阔空间,具有显著的示范性与引领性。


大模型将推动汽车成为超级智能体。 大模型以算力为基础、数据为资源、算法为放大器的技术范式具有马太倍增效应,能够产生出智能涌现的特性,可以在自动驾驶、智能座舱等多方面提升汽车的智能化水平,且能快速迭代,带来新的价值增量。例如,特斯拉FSD率先使用端到端技术并实现数据闭环,人工代码由30万行缩减至3000行,从V12.3.1到V12.3.5的四个版本迭代仅用15天。


大模型甚至有可能推动智能驾驶汽车变革为“人工智能汽车”、成为超级智能体,让汽车能够不断从周围环境中积累数据并自主改进和优化自身表现,主动适应各种驾驶环境和交通状况,提高驾驶的舒适性和安全性;也可以帮助汽车理解人类的语言和手势,并通过语音、灯光或屏幕等方式与人类进行高效沟通。


大模型以革命性的方式改写汽车全生命周期的价值创造。大模型将会颠覆汽车行业原有的生产方式,重塑整车设计研发、生产制造、市场营销、售后服务、供应链等各个环节,推动整个制造链条的产业化、数字化升级。


一方面,用户与车企的关系更近了。大模型会成为车企掌握直面用户的流量入口,帮助车企在需求定义、用户运营、产品升级等各个环节,抓取每一个用户的个性化需求,以提供千人千面的产品迭代和服务拓展。如极越汽车依赖大模型打通了用户用车的问题搜集、数据反馈、工程师处理的自动化闭环,极大提升了组织效率。


另一方面,汽车的设计与生产方式也得到了革新。目前小鹏、极越等车企30%以上的软件依赖于大模型自动生成。此外,大模型还为科技公司赋能汽车产业增加了一条清晰可行的路径,进一步促进了人工智能、信息通信等与汽车产业的融合,加速产业格局重塑。


大模型在汽车领域的应用仍面临5大挑战


1、国内企业面临训练芯片“卡脖子”问题。 大模型云端训练需要上万片高端GPU训练芯片,尤其是端到端自动驾驶训练数据量已达到PB级,训练芯片需求更大。特斯拉 目前拥有超过10万块的GPU芯片,国内多数车企仅有上千块GPU, 很难发挥海量数据价值并实现较好的训练效果。

大模型在云端提供服务也需要大量算力支撑,以ChatGPT为例,按照每天独立访问量2500万次计算,预计需要3万多片A100芯片。目前,美国对华禁售A100、H100高性能GPU芯片,甚至也限制出售“阉割”版的A800、H800, 且高性能 GPU芯片限制越来越严


同时,国产芯片仍存在制程落后、性能不足等问题,部分芯片在大规模训练时故障率较高、工具链不完善,使用体验仍有欠缺,导致我国车企的算力扩展面临很大阻力。


2、国内大模型训练数据量少且质量不高。 数量方面,据Epoch AI估算,全球用于训练通用大模型的数据中,书籍、科研论文等高质量语言数据集可能会在2024 年前耗尽,大模型训练或将面临无数据可用的窘境。中文语料数据仅占约1.3%,Common Crawl、BooksCorpus、WiKi pedia、ROOT等主流数据集都以英文为主,即使是最流行的Common Crawl数据集,中文数据也只占4.8%。另外,大模型理解和掌握客观世界规律,需要学习大量来自知识和价值观层的数据,此类中文语料短缺严重,甚至无法通过机器翻译进行弥补。聚焦自动驾驶领域,特斯拉拥有上千万个有效视频片段数据,且其在全球有超过700万辆智能汽车在通过影子模式持续采集数据,平均每辆车一天就能搜集到一个典型的极端工况样本。与之相比,国内车企场景数据普遍在百万量级,且出于数据合规的考虑,车企之间数据的共享流通仍有阻塞,导致国内车企的高价值场景数据较特斯拉相差超过一个数量级。


质量方面,高质量数据集,需要企业在数据治理方面投入巨大的资金和精力,包括顶层设计、标注规范、标注质量把控以及发布后更新升级等各个方面,但国内企业在数据挖掘和数据治理领域的积累和沉淀不足。汽车行业属于传统制造业,数据的沉淀更是差强人意。这使得大模型在汽车行业落地应用过程中,存在明显的训练数据分布不均衡及完备性较差等问题。例如,国内车企的绝大部分数据分布在几个密集的场景里,“头部效应”非常明显,真正需要的极端工况数据却非常少。且国内车企车型多而单一车型存量少,不同车型的传感器功能不一样,采集的数据各有差异。与特斯拉车型相对集中且传感器方案比较统一相比,国内车企数据的复用性很差。


数据问题不解决,大模型可能会形成“偏科”,导致产生严重的“幻觉”问题,由于汽车行业本身对安全性和可靠性的要求极高,这也会大大限制大模型的应用落地。


3、落地商业模式不清晰。 一方面,大模型处于发展初期,主要以Token使用量收费。从TO B模式来看,车企每年的预算、成本、营收是固定的,以Token使用量来收费的模式动态性太大,车企难以接受。另一方面,“软件+服务”的模式,在国内很难得到认可。在汽车行业“内卷”越来越严重的当下,纯license模式也难以持续,企业付费意愿不高。此外,大模型商业化的价值,还是以提升车企产品销量的传统方式为主,车企、大模型企业双方还未找到可以合作共赢的路径。


4、缺乏良性合作生态支撑。 一是贯穿实时信息以及垂类信息的数据生态还未形成,导致大模型对实时动态和垂直领域的理解能力比较差。例如,GPT-3.5训练数据集截止到2021年,无法理解和处理2022年的信息。


二是大模型上车会对整车软件架构、硬件能力、交互策略产生很大影响。目前国内大模型产品非常多且迭代速度非常快,如何在保证产品竞争力的前提下与大模型企业合作,车企仍存疑惑。


三是 大模型 开源生态与国外相比,无论是开发者数量还是技术创新环境仍存在差距, 势必会影响国内AI技术的迭代速度与创新能力。在全球化竞争日益激烈的背景下, 可能使中国AI企业在国际市场上处于不利地位。

5、缺乏大模型能力评价标准。 行业和消费者对大模型上车的期望都很高,但对其表现的诉求“千人千面”。有些人希望大模型无所不能,对所有的问题都能答复。有些人希望简洁,只要按照指令操作即可。如何评价大模型在具体场景下的能力,仍然没有明确、统一的标准。例如,当前大模型在语音交互的语言理解、逻辑推理、信息归纳等能力方面,已经有很多评价指标,但是在上车评价方面,仍面临识别准确率的评判局限、响应速度评价单一、用户体验受主观性和复杂性拘束、缺乏多场景综合评估等挑战。


执笔人:张永伟、贾浩

改写:周颖


往期回顾

师建华副秘书长一行赴立中集团参观调研

走进小鹏汽车供应链技术交流日活动在广州成功举办







请到「今天看啥」查看全文