专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  【博士论文】可控图像与视频合成 ·  3 天前  
大数据文摘  ·  概率、统计学在机器学习中应用:20个Pyth ... ·  1 周前  
51好读  ›  专栏  ›  数据派THU

干货 | 石化政策分析模型开发

数据派THU  · 公众号  · 大数据  · 2024-09-22 17:00

正文



以下内容整理自2024年夏季学期《大数据实践课》中国石化工程建设有限公司与清华大学软件学院共建的研究生专业实践基地的同学们所做的期末答辩汇报。

 


大家好,我们是石化政策模分析模型开发小组,我们的分享将会从项目背景、项目任务、项目计划、技术路线和系统展示、参考文献展开。

 


因为国家地方和行业政策对石化及新能源领域的项目发展具有重要影响。所以,中国石化建设有工程建设有限公司工程咨询部组建了政策分析小组。政策会影响到市场准入的标准和监管要求,政策也可以促进石化及新能源产业链的协同发展,通过优化产业布局,推动产业集聚和整合能源。政策还会对其鼓励发展的领域提供一些优惠措施。在环保和可持续发展方面,政策对石化及新能源项目的影响也尤为显著,会制定严格的环保和环保标准和要求,推动企业采用更加环保的基础设备,降低污染排放。



行业也是对政策分析有需求的,因为国家和地方会高频率出台众多的政策法规,企业也需要及时掌握国家、地方和行业政策的最新动态。例如,右边展示的《2024—2025年节能降碳方案行动方案》中明确提到了石化行业节能状态的具体目标和措施,这会对行业内的企业发展具有深远的影响。企业分析政策分析也有助于企业在政策投项目投资前进行全面的风险评估和收益预测。


当前的业务痛点是政策的层级多、数量多、更新快,同时内容中指标也多,要求也会比较高。同时人工对多数量的政策检索效率会较低。企业当前对政策的分析实力不足,对政策的风险评估能力不够,通过政策分析开展咨询工作的指导能力也不足。在实现的过程中,工作相关性会不高,信息传递效率低。总结之后,信息把握的准确率也可能会变低。


我们开发的石化政策分析模型是综合了数据收集、模型构建和可视化输出等多个模块,能够按照模板生成政策总结文件或思维导读形式的政策解读文件。通过这个模型,用户可以获得准确、及时的信息以支持决策制定和决策规划。

 


我们的任务一共分为四个,主要是关键词提取、关键内容提取、生成政策解读文件、政策分析。右边是我们生成的两个具体的样例,一个是政策解读的文档和一个政策解读的思维导图形式的图片。

 


这是我们项目计划,前两周我们部署大模型,然后对政策文件进行了一个数量上的统计分析。后两周我们设计提示词使用大模型对政策进行处理,同时将政策文件转化为政策文本,在后两周我们使用Fast GPT进行工作流搭建,同时搭建最终交付的系统。在最后两周我们尝试修改提示词提升生成结果的效果,以及整合代码并准备最后答辩。

 


这是我们的组织分工,我负责代码部分的编写和系统架构的设计与部署,然后包仲航同学负责方法调研。刘宇同学负责提示词方面的调研和提示词方面的设计。姜兴攀同学负责关键词部分的提取,生成框架的设计。

 


这是我们技术路线,主要是先把政策文件转化为政策文本,然后再提取出一些关键词,用这些关键词来设计对应的提示词,同时交给大模型生成总结文本以及后续的分析报告。在关键词基础上,我们先进行了PDF转文本,然后再在其中进行关键词提取,最后将所有的TXT整合成一个统一的文档,再进行每个关键词验证,最后经过专家的审核得到最终的关键词库。专家也会给一个关键词库,我们将这两个关键词库进行合并。

 


这是我们最后得到的关键词库。每个关键词有一些可能同义词或者相同含义的一些词,左边还会有它的权重,我们最终的生成的顺序也是根据这个权重来的。我们也对应地设计了一个一文读懂框架,根据一些信息把它编排到一起,最后的生成结果也是按照这个框架来生成的。


下一步是转换文件格式,因为它是要交给大模型的,需要把政策文件转化为政策文本,然后再以文本的形式输入大模型。但是政策的文件结构是复杂的,大部分文件都是PDF格式,同时会拥有表格公式文图片等副文本信息,一般的OCR识别效果比较差。最后让我选择了一个paddle OCR的方法,它能够将文档中的文字块,表格,图片,公式等分离开来,再单独进行处理。但是它的表格信息也比较难以提取出来,有大量的异形表格、分页表格还有一些不完全的表格,对于异形表格的识别,我们直接用OCR它的识别效果会比较差,它不是按照原本的单元格划分来进行的。我们最终使用了一些检测方法,每个单元格单独处理出来,然后在每个单元格内进行OCR。同时它也会有左右分开两个表格的情况,这些我们都会在最初进行检查。分页表格的话,就我们就如果检测到它是分页表格的话,就会把它合并起来。对于不完全表格识别,我们就会把中间的竖线补上。下图是最终表格转化的一个结果,它是用jason形式体现在最终的文本中。

 


然后是进行大模型的提示词设计,这里是一个迭代式的提示词设计方法,它通过不断询问大模型的上一个回答有什么改进的方法,同时让大模型对上一个回答进行评分。

 


把上一次的问答重新输入给大模型,然后再输入第二次问答,这样就是一个迭代。我们不断地进行迭代来提升它的最终的结果,同时进行不断的打分,在迭代一定次数或者分数高高到一个阈值的话,我们就结束它的迭代,取得分最高的一个作为最终的结果。


这边我们进行单次的文章总结,会同时询问一些成本效益分析、技术发展策略、综合战略和合规实施建议等内容,也有进行分步骤、逐个关键词进行大模型的问答。也或者像刚才说的一样迭代去进行大模型的问答。最后将问答生成的结果转成Markdown,然后使用一个Markmap的开源工具,把它转化成一个思维导图的图片。

 


以上是刚才那三种提示词的输出结果。

 


这个是单词问答。

 


这个是主关键词进行问答,每个关键词会对应一段总结的内容。

 


这个是迭代的问答,可以看到左下角有个信息评级。每次问答时,对自己上一次回答结果进行打分。最右边的话就是生成的结果。

 


这边展示思维导图形式,七千字的政策文件,我们最后生成了一个这样的思维导图,然后给了一些数字,还有一些文件名称等信息,它也是根据一些有条理来分布的。


最终我们交付的是一个政策分析网站的系统。在系统中可以上传文件,然后进行政策分析,并给出结果。针对生成结果不明晰的情况,我们制定了一文读懂政策的框架,然后针对文件结构复杂情况,我们使用Paddle OCR对文档进行分析处理。针对生成结果的复杂性,我们能够将生成结果转化思维导图形式的图片更容易读懂。


我们使用Fast GPT作为前端,然后使用open API连接Xinference部署大模型作为后端,同时使用Flask搭了一个服务,用于转化PDF的文本再发到GPT中。



我们可以创建这样的工作流进行流程设计,自定义文件的处理方法和回答记问答记录,这边也是支持一个循环的流程设计的。

 


在这张图的右下角,有一个循环。它可以用于每一个模块,处理一个功能,比如说这个模块,它就是进行大模型问答,然后下一个模块它是用简单的javascript的代码来进行一些数据的处理。可以在问答结束之后查看每一个像这样的模块的输入输出和运行时长之类的信息。在OneAPI中可以创建渠道来连接部署大模型。在这里可以选择一些大模型进行部署,用于后续的问答操作,同时这边也支持自定义大模型。自己有一套大模型的权重,可以在这边把它加载进去,正常使用。然后在未来工作中,我们进行了一些展望,比如可以对表格进行更加细分的处理,对于图片的处理上可以将图片输入到模型中以生成一些描述性的文本,然后来加入到政策文本中增加效果。探索更多的大模型的使用方法。然后第四点的话是将提示词跟需求进行更加紧密的结合,提升总结文件跟实际政策分析需求结合的效果。最后一点的话是使用政策文本,构建知识库,回答更多元化的问题。



以上是我们的参考文献,谢谢大家! 


编辑:于腾凯
校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。



新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU