长安汽车智能化研究院是中国长安汽车集团有限责任公司旗下专注于汽车智能化技术研究和创新的研发机构。其愿景是通过持续创新和技术突破,实现汽车智能驾驶、智能网联和智能交通的全面发展,提供更安全、更便捷、更智能的出行体验,并成为中国汽车智能化领域的领军企业。
智能化是汽车工业发展近百年来对汽车功能的一次重新定义,它旨在利用大数据、人工智能、云计算、物联网等数字技术,对汽车设备和系统的运行状态进行全方位的感知、分析、决策和控制,从而提高汽车的安全性、舒适性、便捷性和节能性。因此,对于广大汽车企业而言,实现汽车智能化的关键之一,是需要首先建立起一个稳定、高效的数据平台,以承载和利用海量的车联网数据。
以长安汽车智能化研究院为例,其承担着整个长安汽车集团车联网数据的汇聚、处理和应用工作,并已在业务指标分析、质量管理系统、智慧能耗、智能诊断、智慧运营等重点场景实现一定的数据应用。而此前支撑这些应用的,是长安汽车智能化研究院基于Lambda架构,采用Flink、Hive、Iceberg、Doris等多个开源大数据组件组装而成的数据平台,如用Spark做离线数据的加工,Doris做实时数据的查询,并以Iceberg做数据湖支持规模数据的写入,以两个独立的通道来支持数据的离线加工和实时业务。这也是业界主流的数据架构,承载了长安汽车一直以来的数智化发展。
图1:长安汽车原有数据平台架构(
来源:长安汽车智能化研究院
)
然而,在近几年汽车销量快速增长,以及汽车智能化水平不断提升的背景下,长安汽车原有的数据平台逐渐难以应对规模迅速膨胀的车联网数据,其面临的挑战主要集中在以下几个方面:
图2:发展过程中数据平台遇到的挑战
(
来源:长安汽车智能化研究院
)
1) 难以承接高吞吐,大规模数据的实时写入和处理。
为了实现智能化,汽车的车门、座椅、刹车等设备上会被设置大量的传感器,每个传感器会收集一种或多种类型的信号数据,之后再被汇聚和做进一步加工处理。具体到长安汽车,其当前需要处理信号数据达到上千种,并且随着其汽车智能化水平的不断提升,预期在未来需要处理信号数据将达到上万种;与此同时,长安汽车近年来销量持续增长,市场保有量不断提高,当前已经需要支持400万辆车的连接,预计到2025年需要连接上千万辆。
信号数以及汽车保有量的快速增加,以及车联网数据本身具有高采集密度的特点,首先给长安汽车带来的就是数据写入的挑战。一方面,长安汽车车联网数据的每秒的吞吐量已达数百万级TPS,预期很快就会达到千万级TPS;另一方面,长安汽车当前每天产生的车联网数据规模已达到几十TB,未来每天产生的数据可能会数倍于这个量级。
但长安汽车原有的数据平台通过组合多个数据通道产品,如Kafka -Flink- Iceberg/HDFS形成复杂的数据加工链路,来解决数据入湖仓的问题,实时性不足,且过程需要做非常多的预计算和处理。原先的数据平台无论在系统能力,还是资源消耗层面已经疲于应对当前这种规模的数据写入,更不必说未来数倍规模增长的数据。
2)难以支撑准确及时的数据查询分析需求
。在车联网场景的数据应用中,快速给出各种分析结果是保障服务有效性的前提。例如在智能诊断中,车企需要近实时地收集相关信号数据,并快速定位故障原因。但车联网数据的处理存在很多特殊性,在很多场景下,原有数据平台在性能和成本等方面,不能支持实时查询和分析的更高需求
,包括:
-
Doris链路通常只适合对有限列的信号数据进行实时处理,如果用Doris对车联网全量信号数据进行分析,成本会非常高昂。
-
车联网数据的采集会存在很多延迟的情形,如在地下车库等信号不佳的地区,数据回传存在一定时间差,导致需要重新扫描一定时间内的历史数据,并进行写入更新。而如果用原有的数据平台频繁地进行延迟数据更新,会带来额外的高成本。
-
随着汽车上传感器数量的增加,数据平台需要写入和处理的信号类型数据会不断变化,也即数据的schema会出现变动。但原有的数据平台不能灵活高效地支持这种信号列可变的数据处理。
-
车辆静置或设备状态没有发生改变期间,平台采集了大量重复的信号数据,如对大量重复数据进行计算,不仅会大幅降低计算性能,同时也造成了较高的资源浪费。
3)难以负担不断攀升的数据存储和计算成本。
长安汽车数据量的快速攀升,以及逐渐要求对数据进行全量写入和计算的要求,给其带来了逐渐高昂的数据存储和计算成本。但与此同时,原有数据平台却不能很好地针对车联网数据的特点进行针对性地的成本优化,例如:
-
原有数据平台采用Json格式对车联网数据进行存储,无法对数据进行有效压缩,从而降低存储和计算成本。
-
原有数据平台在多套引擎中传输和同步数据,造成了数据存储的冗余,以及额外的ETL作业和计算成本。
-
原有数据平台采用存算一体的架构,无法针对存储和计算资源需求,分别进行弹性扩展。
4)难以应对多组件带来的使用和运维的复杂性。
为了高效处理车联网数据,长安汽车智能化研究院曾尝试在原有的数据平台架构基础上,引入新的大数据组件,修补之前遇到的问题。然而,不断堆叠的各类大数据组件,让整个平台的使用和运维非常复杂。因为在组装式的架构中,每个引擎都是独立开发和运维的,它们之间可能存在不同的系统设计优化方向。当业务需要调整引擎之间的配置时,例如重新平衡数据新鲜度、性能和成本之间的关系,需要进行复杂的修改和重复开发工作。这增加了调整的复杂性和耗时,使得数据架构调整的周期较长,无法应对快速变化的业务需求。
构建Lakehouse一体化数据平台,获取数据处理时效性、性能、成本和易用性的最优解
为了支撑海量车联网数据的写入和处理,并在数据处理的时效性、性能、成本和易用性等方面获得显著优化,以应对长安汽车在当前以及未来的汽车智能化需求。
长安汽车智能化研究院经过反复的探讨和验证,最终发现如果继续基于开源路线,采取对原有数据平台打补丁的方式,无法从根本上解决上述问题,因此迫切需要引入一套针对物联网数据处理的全新的数据平台架构和技术体系。最终,长安汽车智能化研究院基于云器科技自研的Lakehouse一体化数据平台,为其痛点需求找到了最佳解决方案。
图3:开源路线演进方式存在的瓶颈
(
来源:长安汽车智能化研究院
)
云器科技成立于2021年,是一家多云及一体化的数据平台提供商,团队成员主要由来自阿里云、字节、微软、Oracle等国内外顶尖云计算与大数据企业的资深技术人员组成。云器科技自研的Lakehouse一体化数据平台,能够让数据平台架构更简单、数据更开放、分析更灵活。
图4:长安汽车基于云器科技产品升级后的Lakehouse一体化数据平台架构(
来源:长安汽车智能化研究院
)
长安汽车基于云器科技产品升级后数据平台采用了一体化的架构,以及极具创新性的全数据链路实时增量计算模式,结合多重技术优化,让长安汽车能够以较低的成本应对超大规模的数据实时写入和及时分析。
具体而言,新的数据平台在以下多方面进行了显著的技术创新,来实现这一目标。
图5:长安汽车构建的全数据链路实时增量计算模式(
来源:长安汽车智能化研究院
)
1) 一体化架构。
新的数据平台以一套引擎,统一离线、实时、交互式分析三种计算形态,统一数据存储和管理,统一数据开发、统一数据服务。长安汽车因此可以在一个一体化的数仓架构中用一套SQL同时开发实时、离线和多维分析任务,降低了开发难度和运维成本,也减少了数据冗余和数据不一致等问题。
2) 增量计算。
新的数据平台将一天内产生的车联网数据拆分为小份多批次,如每5分钟一次将增量数据实时写入平台,并进行加工处理,避免全量数据计算给系统带来了的负载压力;同时,系统可以根据过滤规则在增量数据中只选择与分析需求相关的数据进行计算,避免数据更新时对全量数据进行扫描带来的额外计算时间和成本。因此,增量计算有效解决了长安汽车面临的几点问题:
-
在大规模数据计算中,性能得以显著提高;
-
延迟数据得以在平台中以较低的成本快速更新;