专栏名称: 挖地兔
金融数据采集与挖掘,开启量化金融的第一扇大门。
目录
相关文章推荐
爱可可-爱生活  ·  大模型还是小模型?AI部署的困境与突破 ... ·  17 小时前  
Web3天空之城  ·  【天空访谈·播客】AI, DeepSeek ... ·  昨天  
Web3天空之城  ·  【天空访谈·播客】AI, DeepSeek ... ·  昨天  
机器之心  ·  重磅发现!DeepSeek ... ·  2 天前  
黄建同学  ·  最近比较火🔥的Thinking ... ·  2 天前  
爱可可-爱生活  ·  【kg-gen:从任何文本中提取知识图谱的A ... ·  3 天前  
51好读  ›  专栏  ›  挖地兔

利用Python实现摘要自动提取,完美瘦身只需一行代码

挖地兔  · 公众号  ·  · 2018-12-28 00:00

正文


上一篇文章给大家介绍了从新闻联播中提取关键词做统计分析,用到了jieba这个优秀的工具。其实在背后有很多的算法在支撑,今天给大家推荐一个也可以用于关键字提取的算法TextRank,但主要实现的功能是快速从长篇新闻中抽取精准摘要。


作者:曾斌

编辑:米哥


前言介绍

TextRank是一个基于图排序的、用于文本处理的算法,通常使用PageRank作为其底层的图排序模型,当然其他的图排序模型也可以与其结合。


使用TextRank算法,不需要有深入的语言学和专业领域知识,因为它是一个无监督的算法。在文本中使用基于图的排序算法需要构建一张关系图来表达文本、词语以及其他实体。


在中文里面,词语、短语、整个句子等都可以作为图中的顶点,在这些顶点之间建立联系,如:词序关系、语义关系、内容相似度等,就能够构建一张合适的关系图。


目前,TextRank在中文文本中的应用主要有三个方向,分别是:


1)关键词提取; 2)关键短语提取; 3)自动摘要。


Python中有一个名为 textrank4zh 的包实现了这三个功能,其源码地址为:

https://github.com/letiantian/TextRank4ZH , 实现了不错的文本处理效果。


效果预览

最近,Tushare Pro 发布了近10年的CCTV新闻联播数据,对数据进行了清洗和规范。


但是,每天的新闻联播内容共有上万字,完全的读下来也是比较费劲。如果使用自动摘要技术把这上万字的内容浓缩成10个句子,阅读负担一下子就减轻了不少。而自动摘要正是 TextRank 的用武之地。


在实现功能之前,我们先来看看从新闻中提取的摘要效果。


得益于Tushare提供的新闻联播规范文本,TextRank自动摘要效果看起来非常不错。


为什么TextRank能有这么好的效果呢?这主要是因为图排序模型是基于全局信息来计算每个顶点的重要性,而不是仅仅使用局部信息。下面简单介绍一下TextRank应用于自动摘要的基本原理。


基本原理

前面已经说到,使用TextRank分析文本,首先需要在文本上构建一张图。


对于文本自动摘要任务,我们使用句子作为图的顶点,句子与句子之间的相互关系作为图的边。这里不能简单的用句子在文本中的前后关系来构建图的边,我们需要评估句子与句子之间的相似度,每个句子仅与它最相似的几个句子之间构成连接,并使用相似度作为边的权重。


事实上,两个句子相似,可以认为这两个句子之间存在一种“推荐”关系,即:读者读完这个句子后,这个句子推荐读者去读跟它相似的句子。


评估两个句子相似度的方法有很多,比如:余弦相似度、编辑距离等,在TextRank算法中使用的是最基本方法,通过计算两个句子中相同词语的数量来计算相似度,此外,可以加语法过滤器对词语进行过滤。


确定了图的顶点和边是什么,以及边的权重,一张加权图(weighted graph)就已经得到了,这个加权图的形状如图1所示。接下来就可以使用PageRank去迭代计算每个顶点(句子)的重要性。最后,将最重要的N个句子作为整个文本的摘要,这就是TextRank的自动摘要结果。




代码实现

由于textrank4zh已经实现了TextRank的功能,我们拿过来直接使用就可以,而且用法极其简单。








请到「今天看啥」查看全文