大数据能力提升项目｜学生成果展系列之一

数据派THU · 公众号 · 大数据 · 2024-12-25 17:00

正文

请到「今天看啥」查看全文

导读

为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式，显著提升了学生大数据分析能力和创新应用能力。

回首2024年，清华大学大数据能力提升项目取得了丰硕的成果，同学们将课程中学到的数据思维和技能成功地应用在本专业的学习和科研中，在看到数据科学魅力的同时，也将自己打造成为了交叉复合型的创新型人才。下面让我们通过来自8个院系的8位同学代表一起领略他们的风采吧！

代表性成果

深圳国际研究生院唐沛豪

结合大数据能力提升项目课程中学习到的大数据系统相关知识与大数据实践课中掌握的时序数据异常检测相关算法，在国家重点研发计划《手机及平板电脑全生命周期数据动态获取和聚类汇集技术》中设计了一个电子产品产线实时能耗异常分析系统，产出了一篇会议论文与一篇专利。

实现制造过程的异常检测对提高生产效率、保障产品质量、维护生产安全起着至关重要的作用，同时大数据领域的技术突破使得制造过程产生的海量数据能够实现实时、准确的传输与分析。基于大数据与深度学习方法，设计了一种电子产品产线实时能耗异常分析技术整体方案设计如图5所示，将传感器数据经由 Kafka 消息队列传输至基于 Flink 框架的流式数据分析引擎中，设计基于 OLAP 的在线数据分析处理实时数据仓库，并且构建一种基于预测的深度学习方法进行能耗数据的异常检测；针对深度学习模型训练集数据不足的问题，设计了一种改进 TimeGAN 算法进行时序数据增强，最终通过可视化界面展示系统能耗监控状态，实现对电子产品制造过程能耗状态的实时监控与异常预警。

图1 系统总体方案设计

基于 Kafka 消息队列与 Flink 流式数据处理引擎，设计了制造过程能耗数据实时采集模块，系统的示意图如图6所示。该系统主要由两个部分组成，Kafka 消息队列用来实现制造过程多源数据流的数据缓存，避免因后续数据处理缓慢造成的数据丢失。Flink 流式数据处理引擎从 Kafka 消息队列中实时拉取传感器数据，在进行数据清洗、转换操作后便可以进行数据的实时异常检测等分析操作，并将数据与操作结果存储在数据库中。

图2 数据实时采集模块结构

基于 Flink 引擎搭建一套实时数据仓库系统，实现对电子产品制造能耗数据的采集、管理、存储、使用一体化设计，稳定、高效地完成能耗数据的分析任务。针对电子产品制造能耗的实时采集与分析过程，搭建的数据仓库整体结构如图 7 所示。按照实时数据的流动方向与不同的计算需求，将数据仓库划分为多个层级，各层级负责对应的数据处理逻辑。

图3 实时数据仓库结构

在对能耗数据进行异常检测时，设计了基于深度学习模型与指数加权移动平均控制图的异常检测模型，模型的结构示意图如图 8 所示。整个模型分为预测阶段与异常检测阶段两部分，在预测阶段，首先输入制造过程传感器时序数据集，在数据输入层进行预处理和归一化，然后将数据集放入卷积神经网络单元进行特征提取。使用并行的门控空洞卷积层对数据进行卷积处理后，通过池化层进行降维防止过度拟合。将池化后的特征数据输入门控循环单元层对特征值进行学习后，再将数据导入注意力层进行权重分配以提取重要信息，最后通过全连接层输出预测结果。在时序数据的异常检测阶段，使用在预测阶段已经训练好的深度学习模型对已有传感器时序数据进行预测拟合，求出拟合结果与真实数据的残差序列后，用指数加权移动平均控制图判断残差序列的变化趋势是否偏离正常值，从而实现对传感器时序数据的异常检测。

图4 异常检测算法结构

使用简单的卷积网络进行特征提取时，难以完整地提取时序数据中不同维度的特征信息，但是增加网络层数会导致过拟合现象的出现。为了解决这一问题，设计了一种并行的门控空洞卷积层进行卷积操作，其结构如图9所示，在一次卷积过程中，我们使用三个不同感受野的空洞卷积核提取不同维度的数据特征。对输入数据进行卷积处理后，分别为其设置一个门控单元，计算卷积输出的权重。将通过 LeakyReLU 函数得到的权重与卷积结果相乘，让三个卷积核各自提取自身的有用特征，最后将三个输出进行相加，得到最终的卷积层输出结果。

图5 并行门控空洞卷积模型

在并行门控空洞卷积层的基础上，额外引入残差块的设计，将一个一层的并行卷积层扩展为由两层相同膨胀因子组成的卷积层与一个残差连接组成的残差块。残差块的示意图如图 10 所示，在一次卷积过程中，输入数据首先进入并行门控空洞卷积层进行卷积操作，再通过 ReLU 激活函数增加数据的非线性特征；在两层卷积计算完成后，将输出数据与经过一层卷积操作的输入数据相加得到最终输出。残差块通过直接引入输入数据的信息到最终输出中，有效解决了梯度消失的问题，提升了网络的训练性能。

图6 残差块结构设计

使用来自某企业实际制造过程中通过传感器采集到的设备能耗时序数据验证所设计的数据增强模型的效果。上述预测模型在训练集与测试集上的拟合结果如图 11 所示。

图7 能耗数据预测情况

依据深度学习模型预测结果绘制的 EWMA 控制图实时变化情况如图12所示。在正常情况下，大多数残差序列数据点的波动情况都在 EWMA 统计图的控制范围内；而在控制图中出现了一处异常点波动，这可能是进料口堵塞、卡顿等原因造成的，如果长期出现卡顿现象，需要及时进行异常报警对设备运行状态进行相应排查。

图8 能耗数据控制图异常检测

编辑：文婧

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号： 数据派THU

今日头条： 数据派THU