为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。
我叫唐沛豪,是清华大学深圳国际研究生院机械专业 22 级的硕士研究生。与大数据能力提升项目结缘,来自一个偶然的机会,但正是这次偶然的相遇,让我的研究生学习生涯乃至自己的职业规划都产生了重大变化。研一时初入清华,我对学校所开设的丰富课程充满了期待。在浏览校 info 的信息界面时,我发现了大数据能力提升项目的相关说明,了解到了项目完善的培养方案与丰富的课程设置,而这与我自己的硕士课题:制造过程能耗数据动态获取与聚类分析的研究内容也有较大的共同点,因此我毫不犹豫地报名了这个项目,希望能够进一步提升我对大数据领域的了解。
研一的第一个学期,我修完了项目中发展治理模块、基础技能模块与专业融合模块相关的课程内容。在大数据系统基础的课程中,我第一次全面系统地学习了大数据的核心概念与技术架构,掌握了数据处理、存储与分析的关键方法。通过课程作业里的实践操作,我还熟悉了主流的大数据平台与工具,如Hadoop、Spak、Flink等软件的部署与应用。在数智安全与标准化的课程中,我了解到了大数据这一蓬勃发展的新兴产业背后,其实也有很多相关的安全、规范问题还需要进一步完善,在课程的结课答辩里,我与不同专业的同学们一起合作,完成了金融行业中大数据风控对个人隐私边界的侵犯研究,了解了大数据风控的基本原理以及在个人隐私保护上可能存在的法律与伦理问题。
在研一的课程学习完成后,经过与导师的沟通,我在自己的硕士课题中运用课程中学习到的知识与自我学习的内容,搭建了一套基于Flink的生命周期能耗数据实时采集系统,有效解决了制造企业在实际生产过中对能耗数据处理分析的低延迟、高吞吐、高可靠性需求,并且在国家重点研发计划项目《手机及平板电脑数字化绿色设计技术及应用示范》的汇报会议中公开展示了我所做的相关的研究工作与工程应用成果。
研一的暑期学期,我报名参加了实践应用模块中大数据实践课的学习课程,与其他专业的同学组成了一支队伍,共同参与了江苏省生态环境监测监控有限公司所提出的基于在线监控数据的非现场监管问题识别模型研究课题。在课题工作过程中,我参与了基于企业用电工况时序数据的异常行为识别和排查算法与系统设计,基于Python完成企业用电、工况及污染物排放时序数据的 ETL 操作后,使用一种基于滑动窗口的无监督学习方法,判断企业用电数据与污染物排放数据是否出现异常状态。最终该算法模型实现了 50 余家企业近两年来多种排污数据的异常状态检测,并使用tkinter 进行了交互界面的设计。在课题顺利结项之后,企业也将我们的研究成果进行整理,申请了相关专利:《一种基于滑动窗口的污染物时序数据异常识别方法及系统》。
研二阶段,我利用在大数据实践课中所学习、掌握到的数据分析相关知识,进一步完善了我自己的硕士课题研究,针对制造过程中的能耗数据异常检测需求,设计了一个基于Attention 的 CNN-GRU 异常检测算法模型,在时序数据的预测阶段,对时序数据进行预处理和归一化,然后将数据集放入卷积神经网络单元进行特征提取。使用并行的门控空洞卷积层对数据进行卷积处理后,通过池化层进行降维防止过度拟合。将池化后的特征数据输入门控循环单元层对特征值进行学习后,再将数据导入注意力层进行权重分配以提取重要信息,最后通过全连接层输出预测结果。在异常检测阶段,求出拟合结果与真实数据的残差序列后,用指数加权移动平均控制图判断残差序列的变化趋势是否偏离正常值,从而实现对传感器时序数据的异常检测。我将相关研究成果整理后,发表在了第四届绿色制造国际会议上,并在会议现场做了相关研究报告。
经过研究生阶段两年时间对大数据技术的研究与学习,我对大数据系统的基础知识有了一个较为全面的认识,也希望自己能够继续在大数据相关领域学习、工作。在研三秋招选择工作时,我将自己的意向岗位设置为大数据研发工程师,凭借我在项目中学到的相关知识与企业提供的实践机会,最终我收获了京东、美团、华为、荣耀、百度等企业的大数据工程师岗位offer,并最终决定入职京东,继续进行大数据系统组件的运用与研究。非常感谢大数据能力提升项目带给我的成长与提升,它不仅让我对大数据相关技术有了一个全面清晰的了解,还促进我完成了硕士课题的相关研究工作的推进,最后在个人的职业规划上也帮助我获得了满意的工作机会。大数据能力提升项目就像是我研究生阶段的第二位导师,帮助我在学习、科研、就业的道路上不断向前迈进,再次感谢学校能够开设大数据能力提升这样的学科交叉培养项目,给同学们提供了更多的学习机会与实践平台,也祝项目能够越办越好!
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU