专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
艺恩数据  ·  2024年8月美妆行业市场观察 ·  2 天前  
数据派THU  ·  干货 | 炼化装置能耗、碳排放预测模型开发 ·  2 天前  
数据派THU  ·  科普之旅 | 漫话智能体-当机器学会思考 ·  6 天前  
艺恩数据  ·  抓住中秋余韵,共赏月饼主流新趋势 ·  6 天前  
大数据文摘  ·  门板上做研究的首席科学家:Jeff ... ·  6 天前  
51好读  ›  专栏  ›  数据派THU

干货 | 炼化装置能耗、碳排放预测模型开发

数据派THU  · 公众号  · 大数据  · 2024-09-23 17:00

正文


以下内容整理自2024年夏季学期《大数据实践课》中国石化工程建设有限公司与清华大学软件学院共建的研究生专业实践基地的同学们所做的期末答辩汇报。

 


各位老师同学好,我们是炼化装置能耗、碳排放预测模型开发小组,我们将从以下四个部分进行汇报。



首先简要介绍一下我们的课题目的。我们总体的背景是为了响应国家实现双碳目标的号召,因为石化行业的生产过程,排放的二氧化碳在全国的碳排放中占的比例也非常大。因此我们希望能够通过石化行业来降低碳排放,从而实现国家的一个双碳目标。

 


加氢处理过程是石油炼化的一个核心环节,然而这个环节它需要高温和高压,所以需要消耗大量的热能和电能,因此找出加氢处理环节中与能耗相关的因素,优化相关工艺,并且调控能耗是实现节能减排的关键。

 


现有的一些研究方法,比如工艺流程模拟,存在的问题是模型搭建的时间长,模型搭建的准确性以及有效性无法得到及时的验证,而且能耗与碳排放量预测难以与工艺流程模拟直接对应,建模是十分困难的。因此我们希望能够使用大数据和深度学习预测能耗因素与工艺机理模型进行交叉验证,优化加氢处理过程。那么我们短期的目标是筛选装置能耗的影响因素,定量分析各影响因素对装置能耗的影响方式和影响程度。长期来说,我们希望能够为装置节能减碳诊断提供重要的依据,最终能够帮助SEI装置能耗诊断体系建立。

 


下面简要介绍一下国内外的研究进展。我们以三篇国内外的文献为例,分别分析了他们的输入和输出。我们得出的结论是,现有的研究普遍都是利用机器学习和深度学习来优化工业生产能源效率,并进行预测、提高生产效率并减少排放。然而,现有的研究也是存在一些问题,最主要的体现在他们经常采用一些经验模型,缺乏对影响因素的可解释性和筛选。



下面着重介绍一下我们的研究内容,首先介绍一下我们的数据集分为X和Y。X是经工艺专家初步筛选得到的158组与能耗最相关的因素,然后Y是我们需要预测的13个能耗的输出,我们着重预测的是黄色的三个Y3、Y8、Y9,也就是占据能耗比例比较大的三种输出。

 


我们的项目的主要目标分为两个,一个是定性筛选最可能的影响因素,一个是定量去利用神经网络模型捕捉复杂因素间的关系,从而实现能耗量的精准预测。为了实现这两个目标,我们一共有三个工作。一个是能耗因素变化的精细化,也就是X和Y的预处理,然后一个是能耗因素的筛选,最后是能耗变化的预测。

 


首先是第一个工作,我们遇到了几个小问题,首先是我们拿到X之后发现它的能耗的数据值分布较大,如上图左下角显示。我们进行处理的方法是我们对X的变化,也就是dX进行归一化,使dX的值分布到-1到1期间,同时我们对Y也进行了同样的处理。

 


接下来我们通过对时间序列可视化,我们发现很多时间序列它是非常相似的。我们使用DTW距离对它定量观测,发现很多时间序列的DTW距离等于零,也就是说这些序列是完全相同的,那么这样的序列我们可以把它聚为一类,从而减少X的冗余性。因此,我们使用了DTW对X进行聚类,同时将聚类标签也作为一种特征。

 


接下来是对Y的处理。Y的原始值是左上角这张图可以看到它是一个递增的量,是像一次函数一样递增。但我们如果微观看的话,就是右上角这张图可以看到它是阶梯式上升的,然后它的一个具体数值是最右边这个图表。存在这样的现象可能的原因是这个表的精度只能精确到个位,因此没有办法捕捉到连续的变化。如果我们要求每小时Y的变化,也就是右下角这个DY我们可以发现它其实是一个跳跃的值,它要么是有变化的,要么是没有变化的,那么这样的值其实是很难去直接预测的。

 


基于这个问题,我们考虑到可不可以把这样一个稀疏特征给它通过间隔时间等效脉冲事件序列提取关键特征,也就是我们把原来的时间序列转换为用间隔时间作为变量。我们用较短的时间间隔表示高频率的事件,而较长的时间间隔表示低频率的事件,这样就可以把一个离散的数据变成一个连续的数据。

 


具体的操作分为三步。首先我们提取每个小时内的时间间隔,也就是左上角这个图里面红色的线,也就是Y不变的时间间隔。第二步,我们对每小时的时间间隔取平均得到了右上角的图。我们取平均之后发现,它和原来的离散值是成反比的,第三步直接把它再取一个反比就可以变为和原来的数据拟合的数据,也就是下侧的图,里面蓝色的是原来离散的数据。黄色的是我们进行第二步取平均操作之后的数据,红色的是我们对它取反比,然后对齐之后的数据。可以看到红色和蓝色相比,不但可以将趋势拟合,而且也可以把离散的数据变为连续的数据。接下来我们就可以用处理之后的红色的Y作为新的输出进行预测。

 


第二步就是特征筛选。特征筛选我们考虑到Y3Y8Y9是占能耗比重比较大的,因此我们只去筛选与这三个Y最相关的特征。我们使用了两种方法,一个是相关性分析,一个是用XGBoost来进行筛选。首先是相关性分析,我们以Y9,也就是1.0Mpa蒸汽为例。我们的整体思路是通过计算每一个X和Y9之间的相关性,筛选出最相关的40%。

 


具体操作就是我们先计算出每一个X和Y之间的一个得分函数,也就是左下角这张图。然后我们进行统计,筛选出得分最高的40%,最后进行筛选。


此外,我们除了计算X和Y之间的相关性之外,我们还计算了Y和Y之间的相关性。我们发现Y和自身也是有一个比较强的自相关性的。。因此,我们考虑到可以把过往的Y也作为输入来预测未来的Y。使用XGBoost也是同理,我们也使用XGBoost的同时筛选出了相同数量的因素,用两种方法筛选出因素的重合率大概有50%。

 


这是工艺专家对我们筛选出的相关因素从机理的角度来进行分析,绿色的代表工艺专家认为相关的,可以看到占比也是比较大的。此外,XGBoost还可以揭示时间序列的滞后效应。也就是说,每次X变化Y不是瞬间变化的,而是有一段滞后性才会Y才会发生变化,而这个滞后性是小于24小时的。因此,我们考虑可以把过往24小时的X都作为输入来预测未来一个时间点的Y。


此外,我们在特征筛选的时候还进行了优化,也就是使用我们聚类对X进行去重,我们对X进行聚了很多类,每一类可以只选一个代表来作为我们要筛选出的特征。这样优化之后,我们从原来的40%筛选到了20%的特征,进一步减少了特征的数量。

 


做完前期的准备工作之后,就进行预测。我们预测的输入是以一个划窗的方式来进行输入。结合我们前面的分析,用过去的24小时的X和过去的23小时的Y作为输入来预测未来一个时间点的Y。我们在选择模型的时候考虑了GRU transformer和大语言模型,然后右边是我们对几种模型的评估,发现GRU在处理这个问题的时候,效果是最好的,因此我们选择了GRU。


最后就是我们的一个研究成果,结合前面每一步的分析,我们发现每一次改进loss都是有所降低的,也就是说它的效果是有所提升的,就说明我们前面每一步工作做的都是有意义的。



最终用前面的一年的数据进行预测,以上是我们预测的一个结果。蓝色的是真实值,橙色的是我们的预测值,可以发现拟合的还是比较好的。

 


最后我们用搭建好的模型去预测新的一个月的数据来进行验证。可以看到,除了真实值比较大的一个点,可能是之前训练的时候没有见过,没有办法精准的拟合这个点,其他的点,模型总体的趋势还是拟合的比较好的,预测的误差在18%左右。


最后说几点意义,前面提到可以为节能降碳提供贡献,可以将先进的大数据技术来应用到化工流程中。未来希望可以继续推动智能化工厂建设,拓展应用领域,在其他的一些行业也可以进行节能减排的工作。


最后我们将工作做成了一个可交互的网站,主要就是几个关键的步骤,比如说聚类、筛选特征,交互的可视化界面等。


编辑:于腾凯
校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU