专栏名称: DataFunSummit

DataFun社区旗下账号，专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容，定期提供资料合集下载。

人工智能在汽车制造上的落地应用探讨

DataFunSummit · 公众号 · · 2024-12-26 18:00

正文

导读本文将分享人工智能在汽车制造领域的应用落地。

主要内容包括以下几个部分：

1. 从人工智能概念来理解 AI 应用落地

2. AI 在汽车制造场景应用落地

3. AI 应用落地的本质探讨

分享嘉宾｜林金锋前蔚来汽车 AI产品专家

编辑整理｜ Edith

内容校对｜李瑶

出品社区｜ DataFun

从人工智能概念来理解 AI 应用落地

人工智能实际上是非常简单的概念，即人造的智能，与之对应的就是生物智能。人类具备的智慧和能力，也就是 AI 所具有的功能。

我们的视觉感知，对应到 AI 就是计算机视觉；我们能听和说，对应的是语音识别及自然语言处理；我们能思考，对应的是模式识别；我们能够行动，对应的就是机器人的移动能力。这些本质上都是以机器为载体对人类能力的模仿。

可以从两个维度来推演 AI 的智慧能力。第一个维度是从人类进化的角度：从单细胞生物进化到多细胞生物，再到水生动物、浮游类、两栖类、爬行类、灵长类，最终成为现代人。每个阶段都拥有其特定的智慧能力。如果我们把这些纵向演变的过程横向展开，就是当前生物界所有生物所拥有的智慧能力，这些都是 AI 可以模仿的能力。例如，当我们向狗扔骨头时，它会看到食物（视觉识别）、跑过去（运动控制）、叼回骨头（目标导向行为），甚至吃掉骨头（自然行为）。这一系列动作包含了多种技术的组合，如视觉识别、模式识别或机器人技术。

另一个维度是个人的生命历程：一个人从婴儿开始，经历儿童期、少年期、青年期、中年期、老年期直至生命结束。这同样适用于 AI 模型的生命周期——模型创建、训练、部署、使用直到最终失效。预训练的质量影响着模型的基础能力，就像早期教育影响人类智力发展一样。如果 AI 架构有问题或预训练不良，就如同一个新生的婴儿有智力障碍，那么他长大后，即使学习再多东西，能力和认识也上不去。所有的数据，就像人的学习与经历一样，学习越多知识，经历越多，那么人的能力与认知就越强。任何学习过程对于人和 AI 来说都是至关重要的，知识和经验会转化为自身的一部分，而随着时间的推移，这些知识可能会变得不再适用，同样，AI 模型也有生命周期失效，就像当前我们的工作技能在 20 年后的社会可能就不适用了一样。

结合这两个维度来看，我们可以理解通用人工智能（AGI）、弱人工智能（ANI）以及超强人工智能（ASI）的区别。目前我们用的所有 AI 都是属于弱人工智能，与人智慧能力一样的就是通用人工智能，这个依然需要很长的路要走。当 AI 真的达到超强人工智能时，它可以在几秒内发明原子弹，那么人类就可能会像现在的老鼠一样，躲在某个角落。

自 1956 年的达特茅斯会议以来，人工智能经历了符号主义、专家系统，连接主义、机器学习、深度学习等发展阶段。尤其是 2006 年发明的深度神经网络，2010 年初英伟达推出了新一代的 GPU，再是随着互联网和移动互联网的发展，数据量的极大提升，使得 AI 进入了新的高峰期，这背后就是数据、算法与算力的极大提升。2022 年 11 月底 ChatGPT 的发布，标志着大模型时代的到来，这是 AI 发展的又一个重要里程碑。

算法、数据和算力是 AI 最核心的三要素，所有的 AI 应用落地都是围绕这三个方面展开的。在大部分 AI 应用公司，算力在一定程度上是可以用金钱堆积起来的，而核心则在于算法能力。算法则主要取决于数据的特点，数据特点决定了算法模型的边缘与应用场景。初期的数据来源主要是公开互联网上的自然语言文本和代码库（如 GitHub），这些数据具有很强的人机交互特征，决定了大模型主要适用于面向消费者的场景（ToC），而对于企业运营数据（ToB），如财务数据、生产质量相关数据，都是企业壁垒，较难获取和处理，这也是目前大模型 ToB 的成功案例很少的一个原因。

举例来说，从上海人民广场到北京天安门广场的旅行可以比喻为 AI 的应用。几年前，当企业对 AI 的认知有限时，他们可能希望通过最直接的方式（如直升机）到达目的地，但这在实际中成本极高。更合理的方案是乘坐高铁或飞机，再通过其他交通工具（如出租车、地铁、公交车）抵达最终目的地。这里的交通方式代表了不同的AI算法模型，其速度反映了模型对场景的适应性和匹配度，承载能力则表示模型处理数据量的大小，关键是模型要匹配数据，毕竟一个人的专机或专列属于极其特殊的情况。而道路基础设施（如空中航道、铁路、高速公路）则是算力的支持，只有足够的算力才能运行这些模型，且两者之间相互促进，共同发展。

AI 的发展应当始终围绕解决实际问题的需求。所以去北京天安门前，需要问自己一个问题，那就是去北京天安门做什么，如果是让小孩接受红色教育，看升国旗，那么直接打个车去附近的一大会址会是更好的选择。我们做 AI，不是为了 AI 而 AI，而是考虑是否有更合适的方法解决问题。此外，AI 的发展速度快，但成本也在快速下降，在做需求分析时，除了技术与问题的匹配，必须考虑到成本和技术迭代的问题。

AI 的本质就是 DIKW，即 Data（数据）、Information（信息）、Knowledge（知识）和 Wisdom（智慧）。单个 AI 项目就向我们人获取学习知识一样，但人类成长过程中积累的知识和经验会沉淀下来，用于指导未来决策。AI 项目也需要类似的知识沉淀，因此需要一个 AI 平台，将 AI 项目知识沉淀下来，用于后期其他项目的优化流程，持续改进，以更好地服务于未来的项目需求。

AI 在汽车制造场景应用落地

在汽车制造场景中，尤其在整车制造方面，存在四大车间：冲压、焊装、涂装和总装。这些车间涉及大量视觉技术应用，例如零部件表面检测、整车外观检查、各种焊接检测等。涂装车间由于能耗占据 60%-70%，即使停机一两分钟也会造成重大损失，因此能量控制至关重要。

总装车间更多地涉及到离散制造过程，这里机器人技术和零部件识别、抓取及组装防错的应用尤为突出。大型设备的预测性维护及知识图谱的应用，在此领域也有广泛空间。然而，为了有效沉淀这些点状项目的经验，除了 AI 平台外，知识图谱也是一个重要的工具，它能够将纵向项目的知识横向贯通，进一步增强局部智能供给。目前有大模型加持，知识图谱也是大模型的一个 CP（相互补充，相互促进的伙伴）。

对于任何工厂管理者、股东而言，其目标是利用现有资源实现最大产出，而 AI 的作用在于提供局部智能化支持。整体优化需求与局部智能供给之间可能存在矛盾，这是顶层设计时需考虑的问题。工业机器人目前主要应用于焊装、涂装和总装车间，尤其是总装环节应用较多。机器人结合视觉与移动能力执行特定任务，但当前的人形机器人或矩阵智能系统尚未完全成熟。这类系统需要集成传感感知的信息系统、决策思考系统和执行系统三层能力。之前所有企业如谷歌和百度等本质上都属于信息获取企业，而以 OpenAI 为代表的大模型公司则侧重于思考和决策模块。因此，往前延伸，人们自然会想到像人一样的三位一体的闭环系统。自动驾驶是一个完整的三位一体的系统，该赛道已经开始了十多年了。目前机器人这个赛道也是一个完整的三位一体的系统。因此去年和今年，机器人，具身智能这个赛道变得很火。在现阶段，人形机器人还只是一个通用机器人的愿景与平台。但具身智能目前还两个主要问题：一是大模型是否足够成熟及其发展周期；二是具身硬件成本太高。虽然人形机器人最适应社会环境，但实际上，许多应用场景并不需要模拟所有人类功能，只需要部分功能，如视觉识别和零件抓取，或简化成轮子的移动机制。

从应用需求出发，具身智能的发展可能需要较长周期。动力电池的应用场景不同于传统的整车制造，包含了离散制造和过程制造。例如，在电池生产初期的搅拌、涂布和辊压阶段，数据呈现复杂的一对多关系，甚至多对多的关系，难以直接关联到具体因素。而在后续的化成分容和老化测试中，数据逐渐显现出离散特征。视觉技术在此主要用于焊接质量检测，涉及 2D 和 3D 图像处理，并且存在诸如极耳 XRay 检测等难点。此外，大数据分析用于电池容量预测和其他核心指标预测也是锂电制造行业的重要组成部分。尤其在涂布辊压和来料环节，在电芯生产的前段，价值更大，但作为流程制造，其难度也更高。

在涂装车间中，我们通过数字孪生加 AI 进行表面质量检测。首先导入 CAD 模型作为训练样本，然后根据生成节拍规划机械臂运动路径，实现精确检测，精度可达 0.03 毫米。2020 年我们尝试过类似方法，使用 CAD 图纸生成数模进行零配件检测。因为零配件数量非常多（上万件），不可能逐一检测，且负样本太少，最终精度只达到 74.9%。

AI 是数字化的一种，数字化对应的就是物理世界，即业务。因此要成功完成一个数字化 AI 项目的核心在于提取业务关键指标。如果数据不正确，AI 项目无法落地，特别是核心数据的提取尤为重要。在焊接车间，自动化程度很高，机械臂和机器人的占比很重。

焊接检测基本都是破坏性或半破坏性检测，或者采用超声波检测，且多为抽检形式。这对成本、检测时间带来挑战，人工成本上升也对车企构成挑战。质量检测在汽车制造中极其重要，车身质量问题直接关系车企的品牌声誉。我们与一家汽车厂设备与工艺工程师讨论一个半月得出，假设焊接位置正确的情况下，焊接质量主要与能量有关，而能量又与电流、电压及等效电阻相关。因此，我们将电压、电流、等效电阻及功率作为检测对象，若两个参数异常，则默认为异常。因此将车身材质与厚度等效为电阻。白车身的电阻焊焊接良率通常非常高（98%，99% 以上），所以前期采用无监督学习，再加少量标注后形成初步模型。模型建立后，进行二次人工确认，形成数据闭环，这些数据进一步提升模型的精度。在标注过程中，不同缺陷进一步标注，如毛刺飞溅或虚焊等。

当缺陷数据量足够时，可以明确判别某些缺陷点。该系统类似于人在不同距离识别一个人的过程，距离不一样识别的对象以及准确性也不一样。随着距离缩短，识别细节逐步增加，从大致外形到具体特征，最终精确到脸部特征。在这一过程中，我们确保每一个阶段，不论是初期的模糊识别阶段，中期的过渡阶段还是最后的精确识别，都有价值产生。在数据量不足时，初步只需判断 OK 或 NG，随着数据量增加，逐步细化分类，直到精确到具体缺陷类型。这样在初期数据量不足以及数据质量不好的情况下，也能很好地产生价值。如果一开始直接精确到某个缺陷的识别，那么该项目大概率是难以完成的。

通过用户旅途，将设备从购买到安装调试，到出现故障，完成维修，以及再次恢复生产的过程展开。在设备旅程过程中，每一步骤如何进行，遇到什么问题，使用知识图谱解决问题时会产生什么样的价值，明确从哪一点切入，切入后再向其他点扩散，从而形成从点到线，由线到面的一个过程。实际操作中，我们寻找最小的场景，定义好该设备的 MVP（最小可行性产品）。对产品的功能与场景的颗粒度定义不能太细也不能太粗，太粗无法验证价值，太细不仅投入巨大，一旦出错则修改困难大，代价高。接下来在最小可行性产品上进行横向拓展，从场景、知识库、知识类型等方面扩展。同时进一步纵向深入，优化和完善细节。从最小可信产品演进到完整的产品和服务，从一个场景迁移到另一个场景。核心的一点是，需求永远是最重要的，基于需求设置路径时必须确保每一步都产生明确的价值。

AI 应用落地的本质探讨

AI 应用的落地，重点在于思考其本质。具体来说，如何识别一个人的问题，正如之前提到的，许多人可能认为识别一个人取决于外貌、身高、体型、基因以及社交圈等因素。但当试图全面识别这些因素时，需要海量的数据，以及极其大量的场景，事情可能会变得复杂到难以操作。实际上的情况是怎样的呢？

假设我在上海，你在北京，通过电话交流，你就能确认“这个人是林金锋”。在这个特定场景下，数据非常简单，仅包含一个语音数据。基于这样的简单场景，我们可以实现语音识别。一旦简单的语音识别完成后，它可以泛化推广到其他场景，使语音识别系统成为可以在不同场景下识别不同人的完整产品。

再来考虑下一个场景，例如在面对面交流时，我们可能会采集面部数据用来识别，这就是人脸识别的应用。完成这一场景后，人脸识别也可以推广复用到其他场景中。类似地，在足球场上识别个人也是一种应用场景。如果将不同的场景都做了，并提炼出人的不同维度的数据，那么这个人在任何场景下都可以被识别出来，就形成了一个完整的生态。对于工业制造、自动驾驶和智慧城市来说也是一样的道理。因为小场景的制作成本较低，一旦成功，产品化之后可以赚取利润，进而推进下一个项目的创新和试错。这就是创新与产品化双轮驱动。因为 AI 本质上是一个试错创新的过程。

因此，我们需要从整体考虑问题，然后逐步落地到具体的点上。落地时非常重要的一点是找到需求，针对这个需求看看能用什么样的方案解决。尤其在做 AI 时，需要考虑两个标准：一是与没有数字化、没有 AI 的情况下相比，是否有显著提升，确保有价值产生。

二是当前市场上数字化的平均水平是什么，我们要确保比它们更高，明确价值所在。基于此，考虑我们投入多少资源去解决问题。我们可以先从软件入手，再考虑硬件，因为在一开始就搭建大量硬件可能导致采集无用的数据，数据越多反而越难处理。接下来是验证不断迭代的过程，从小场景慢慢扩展到大场景。

关于如何将大场景结构化为小场景，我们在其中考虑到哪些量是变化的，哪些量是不变的。不变的量是我们认为在一定时间周期内固定的，先确定下来。例如对于电池辊压场景，辊压机是稳定的，我们先假设它是正常工作的。如果极片或来料质量有问题，辊压后的极片肯定也有问题，这里可以用视觉检测来料。另一方面，设备工艺控制参数监测异常的话，后面的几片质量也可能异常，这一项目可以通过对过程工艺参数的数据分析类方法来解决，即一旦检测到异常的过程工艺参数则可以预测输出质量存在问题。最后再对整个设备进行预测性维护，因为设备有问题，则输出的质量肯定有问题。这三个小场景 AI 解决方案加起来就是更大场景的解决方案。

AI 核心就是算法、算力和数据三个方面。在应用开发过程中，我们首先默认算力是充足的。因此，在实际应用中，主要关注的是算法与数据的匹配。面对较大场景和海量数据时，算法会变得非常复杂，那么我们应该如何进行处理和落地呢？我的看法是，首先应尽可能将大的场景分解为更小的部分，确保每个小场景都有价值。解构完成后，如果这些小场景中的数据量足够且数据质量良好，就可以使用相对简单的模型来解决它。通过这种方式，一个大的场景可以被拆分为多个小场景，并用不同的小型模型分别解决。这些小型模型的简单加权组合最终能够解决大场景的问题。在这个过程中，我们会自然演化出常用的主要模型或模型组合，例如高铁和普通民航飞机作为核心交通方式的应用。目前，大模型可以充当这些主模型的角色。这种组合可以应对较大的常见问题。

随着需求的提升和技术的发展，模型会有其生命周期。一旦某个模型失效，我们将这些模型拆解，看是哪个小模型没满足要求，就可以针对性地优化该小模型，而其它模型依然保持不变。因此模型的更新迭代代价较小。随着时间的推移和周期的变化，之前由于数据量不足或质量问题无法解决的场景可能会得到显著改善。随着数据积累，可以在小场景中用新模型解决，并将其整合到之前的大型模型中，从而解决更大范围的问题。这一过程实际上演变成了在工业场景或其它场景中解决AI问题的方法。因此，对场景的解构越彻底，即颗粒度越小，则重构的解决方案则越好。上图中右侧列出的公式是我在去年 6 月底对上述过程用数学公式进行的表达与描述，这与神经网络输出为输入的简单加权一样。具体来说，就是将整个场景与用于解决小场景的小模型不断加权，最终形成一个大场景的解决方案。这完全类似于一种表达方式，即通过多个小模型的线性组合来构建复杂场景的解决方案。

我们进一步细分这两个维度，即深入探讨算法模型与数据。从数据标准化和模型标准化的角度考虑，如果实现了数据标准化，那么通过积累多个项目的经验，必然会推动 AI 项目的逐步产品化。而模型的标准化则意味着相同的模型可以解决相似场景的问题，这将引导 AI 应用走向平台化的进程。将这两个维度结合在一起时，实际上构成了搭建 AI 平台的基本思考框架。再回到之前讨论的算法与模型匹配的问题，并将其扩展到大模型的应用场景中。具体而言，当我们将小模型的解决方案迁移到大模型上时，会形成怎样的场景？

我们知道，单个神经网络本质上是简单输入的加权组合，随后通过激活函数产生输出。卷积神经网络（CNN）同样遵循这一原理。对于大模型而言，其实类似于混合专家模型，无论是 LLM、翻译模型、还是视觉模型，它们都是由更大规模的模型通过线性叠加和加权组合而成。

从这个角度来看，我们可以将技术层面细分为非常具体的结构。实际上，大模型不仅仅是一个单纯的大型模型，它可以理解为一个平台。这个平台集成了多种不同的算法，而这些算法又可以进一步解构成若干主要的技术路线与技术组件。

这些技术路线又可以细分为几个简单的核心技术，这些技术与问题所对应的产品功能可以重点提升，进而实现模型与产品功能的匹配。这也是从技术侧到需求侧的一个映射。如果只考虑技术，很容易陷入因为技术而技术，最后将大模型变成了一个大锤子，到处找钉子。AI 的场景落地，核心在于将以 AI 模型为代表的技术分解为最小颗粒，并将场景细化为最简单的产品功能，从而实现二者的精准匹配。在这一过程中，需要平衡技术的迭代速度与成本下降速度，确保技术的成熟度能够满足场景需求。

首先，我们从需求侧出发，将大的场景不断分解为小的场景。每个小场景对应一个小的解决方案，这些小的解决方案又会对应不同的产品组合，产品再分解为各个不同功能的组合。实际上，关键在于将大模型分解到几个最简单的技术模块，评估这些简单技术能够为哪些产品的功能带来提升。通过优化这些产品功能，提高相应产品的质量，提升用户体验或固定资产的价值，进而满足用户需求。但从需求侧到技术侧的实际问题解决过程中，思路则是反过来的：需要将大的场景分解为小的场景，再将小场景分解到最小有价值的小场景，并在每个最小有价值的小场景中寻找小的解决方案。这些解决方案涉及的产品有哪些不同的功能模块组成，进而考虑如何通过技术提升这些功能模块。我们需要评估，如果该场景需要提升，具体是哪些问题需要改进，进而确定哪些功能模块需要优化。针对这些功能模块的提升，我们可以考察哪些技术能够帮助实现这一目标。这里的技术不一定局限于大模型或其他特定模型，而是要考虑到最佳的投入产出比。无论是使用大模型还是其他技术，关键在于选择最合适的解决方案。尤其新技术成本很高，技术更新迭代很快的情况下，除了考虑简单技术与简单产品功能匹配的同时，也需要考虑技术迭代速度与技术落地成本。在 AI 落地过程中，核心就是模型算法与产品功能的匹配。

从产品角度来看，AI 落地时最重要的考虑之一就是如何在满足需求的前提下，通过最合适的技术手段实现功能模块的优化提升。小模型也好，其他技术也罢，最终目的是找到最有效的方案来提升产品的性能和用户体验。AI 算法模型本身也只是一种技术。因此，这体现在如下图所示：在实际应用中，大模型作为底座，可以解决大部分问题，并适用于大多数场景。它可以作为基准（baseline），或者成为我们沉淀下来的核心系统的一部分。这就像爬 100 层楼梯一样，大模型可以帮我们直接到达 50 层，后面需要行业领域模型或自己内部自建的 AI 平台，再上 30 来层，至于最后 1km 解决不了的话，我们就通过项目完成。

在实际应用中，大模型作为底座，可以解决大部分问题，并适用于大多数场景。它可以作为基准（baseline），或者成为我们沉淀下来的核心系统的一部分，它可以随时拿过来快速解决大部分问题，类似于我们人类的直觉反应（系统 1）。随着层次上升，越接近顶层的部分就越贴近具体的系统实现和项目的执行过程，这需要花时间，类似于人类艰难的思考与推理（系统 2）。关键在于如何将项目经验逐渐沉淀为平台的一部分，这是真正需要思考的问题。具体来说，我们需要考虑如何从具体的项目实践中提炼出通用的技术和解决方案，并将其整合到平台中，以便于后续项目的复用和优化，也就是将花费脑力和时间系统 2，转为可以快速直觉反应的系统 1。这一过程不仅促进了知识和技术的积累，也推动了平台的不断进化和完善。这一背后的逻辑实际上是我们刚才讨论的匹配问题：如何将最小单元的技术与最简单的功能进行精确匹配。关键在于找到技术与功能之间的最佳契合点。

最后总结一下，AI 的核心有三个要素：算法、数据和算力。如果能够很好地理解它们之间的关系和个自意义，就能更好地掌握 AI 的本质。理解这三个要素是深入理解 AI 的关键。

我们再回到算力，如果量子计算或核聚变等新技术成为主流算力来源，可能会引发算法的根本性变革。另一方面，用户旅程是一个非常有效的工具，在解决任何问题时都可以考虑使用用户旅程来理清思路，并明确相关的价值点。在项目落地时，必须清晰地考虑整个价值点，尤其是最小可行性产品（MVP）的设计。不能一开始就追求完美和全面，而是要逐步完善。《思考快与慢》这本书提供了一个非常好的思考框架：系统 1（直觉思维）和系统 2（理性思维），这不仅是一种思考方式，还强调了如何通过积累和沉淀，将过往项目的经验转化为平台和产品的提升。沉淀下来的产品和平台反过来又可以赋能新的项目。

最关键的是实现算法与数据、技术与场景之间的最佳匹配。这是确保 AI 解决方案有效性的核心问题。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

人工智能在汽车制造上的落地应用探讨

正文

请到「今天看啥」查看全文