转载推荐:“如今的汽车行业是典型的大数据行业,并且也是AI落地最确定性的场景,同时这也意味着现在每辆车不仅仅是设计和制造需要成本,运行阶段同样需要成本,怎么让每辆车运行成本能够做到可看、可评、可控,这一定会成为汽车行业竞争的关键,这篇文章讲解了我们公司和理想汽车在大数据层面的合作案例。”
随着新能源车的发展,每辆车产生的数据量较燃油车有了大幅的提升,其中智能座舱、信号、自动驾驶等系统,每天都会产生海量数据,在大数据平台通过对海量数据的分析挖掘后,又可以将更优化的参数反哺到每辆车上,为用户提供更好的驾驶体验,形成了良性闭环,这是新能源车企的优势。 随着每辆车产生的数据量越来越大,车越来越多,用于车辆的数据传输、计算和存储的大数据平台也会压力越来越大,成本越来越高,如何提升大数据平台的效率,评估、降低每辆车在大数据平台的使用成本,将是降低车辆运营成本、提升竞争力的重要手段。
理想汽车作为新能源汽车的行业先锋,通过产品、技术和业务模式的创新,为家庭用户提供安全、便捷、舒适的产品与服务,创造移动的家, 创造幸福的家。
理想汽车卖的好,大数据平台需求强烈,理想汽车采用了Spark、Flink、云原生的技术栈来处理这些繁重的计算任务,随着每天数据量的急剧增加,大数据处理平台也在快速扩张,随之带来了稳定性、效率和成本的全方面挑战,未来会有更多的车辆上路、更多的数据产生,如何评估每辆车的大数据成本?大数据平台的资源利用率多少是合适的?这些都是当前需要考虑的问题。为了应对这一挑战并为未来做好准备,理想汽车认为有必要提升其大数据平台处理效率,评估、降低单车大数据平台的使用成本,建立汽车行业最优的大数据平台体系。
机缘巧合,贝联云与理想汽车有了一次深入坦诚的技术交流,理想汽车有需求,贝联云有方案,双方一拍即合,决定做一下POC验证,用事实说话。
经过一段时间的POC,贝联云九象(Sky DataPilot)产品和大数据技术团队的能力让理想汽车有了一定的信心:
1、低侵入性部署:九象不会对现有系统造成干扰。
2、零代码改造: 无需对任务代码进行修改,即可自动化完成优化,大大降低了实施成本。
3、任务智能优化: 通过AI算法模型计算,得出最优参数,动态自动化优化大数据任务,提升任务运行效率、提升资源利用率,降低成本。
4、稳定性治理:提升任务运行可靠性,提升任务产出稳定性,提升运维效率。
同时,九象在金融、汽车、通信等多个行业的大数据项目中的成功应用,普遍实现了30%以上的性能提升和成本节省,最终理想汽车选择与贝联云九象合作,一起解决大数据平台面临的挑战。
需求一:提升任务运行稳定性,降低运维人员的起夜率
提升任务运行的稳定性,保障数据按时产出,是理想汽车大数据平台的重要考核指标,同时,运维人员的起夜率也是平台治理能力的考核指标。
九象提供大数据平台元数仓功能,数据分析显示起夜率较高问题来自于任务运行过程的OOM,所以,针对该问题,九象采用全局内存智能优化策略,智能识别任务中存在的内存不足问题,并为其设置更合理的内存,确保任务顺利完成。通过这一优化策略,OOM(内存溢出)问题的发生频率降低了95%以上,运维人员的起夜率大幅降低,系统的整体稳定性得到了显著提升。
OOM下降指标:
需求二:降低核心队列运行时间,让最重要的任务跑的更快
核心队列的特点是资源充足、任务重要,所以保障数据更快的产出非常关键,在保障稳定性的前提下缩短任务运行时间是核心队列最重要的需求。
基于此需求,九象针对该批队列采用时间优先策略,使得核心队列在资源没有增加的情况下,平均运行时间缩短了30%。
时间优先策略是在维持资源使用稳定的情况下,尽最大可能减少任务运行时间。
具体指标如下:
备注:上图“优化前”是指未优化时,上月同期运行时长数据
需求三:解决繁忙队列的排队问题,让资源使用更合理
繁忙程度高的队列,任务排队情况严重,严重影响了数据产出的时效性,因此九象针对该批队列采用了资源优先策略,使得排队(Pending CPU 和 MEM)情况下降71%,资源使用效率也有了明显提升,资源节约19%。
资源优先策略是根据任务实际所需的资源,对任务运行参数进行动态调整,在保障任务稳定性的前提下,最大限度地降低任务对资源的依赖,达到降低资源使用量和运行时间的目的。
具体指标如下:
1.1、内存Pending优化前:
1.2、内存Pending优化后:
2.1、CPU Pending优化前:
2.2、CPU Pending优化后:
需求四:其他队列降本,降低单车大数据平台的使用成本
其他数据处理队列,明确要求降本,降低大数据平台的整体成本,降低单车大数据平台的使用成本,九象采用了平衡模型的资源优化策略,在资源使用和运行效率之间取得平衡,最终该部分队列实现了21%左右的资源节省,同时保持了运行时间的小幅下降,有效的降低了平台资源成本,提升了资源利用率。
备注:上图“优化前”是指未优化时,上月同期运行资源数据
经过优化后,理想汽车大数据平台的任务运行稳定性之OOM下降95%、资源降低20%、运行效率提升30%,取得了阶段性的成果。
接下来,面向大数据平台的全链路Kafka、Flink、Hadoop、Spark的每一个环节,我们都需要评估,确定每个环节的资源利用率是否合理,运行稳定性和效率是否合理,优化大数据全链路的稳定性、效率和成本将是下一步的重点工作。
通过全链路的优化评估,最终形成单车大数据使用成本模型,实现大数据平台的精细化管理和优化策略,最终实现让每辆车的大数据成本可看、可评、可控。
九象也将继续深化优化策略,探索更多智能化、自动化解决方案,以提升大数据平台的性能和稳定性,为理想汽车的发展提供更加坚实的技术支撑,推动企业向更高效、更经济的运营模式迈进。
九象:九象是贝联珠贯科技推出的一款专业的针对开源大数据平台的优化治理产品,它的设计初衷是为开源大数据集群提供智能化、自动化的优化和治理服务。该产品支持广泛的大数据处理引擎,包括但不限于Hadoop MR、Hive、Spark、Flink和Impala等。能够为用户提供大数据平台的效率、成本的管理工具。
贝联珠贯科技:https://www.lccomputing.com/