专栏名称: 挖地兔

金融数据采集与挖掘，开启量化金融的第一扇大门。

利用Python实现摘要自动提取，完美瘦身只需一行代码

挖地兔 · 公众号 · · 2018-12-28 00:00

正文

上一篇文章给大家介绍了从新闻联播中提取关键词做统计分析，用到了jieba这个优秀的工具。其实在背后有很多的算法在支撑，今天给大家推荐一个也可以用于关键字提取的算法TextRank，但主要实现的功能是快速从长篇新闻中抽取精准摘要。

作者：曾斌

编辑：米哥

前言介绍

TextRank是一个基于图排序的、用于文本处理的算法，通常使用PageRank作为其底层的图排序模型，当然其他的图排序模型也可以与其结合。

使用TextRank算法，不需要有深入的语言学和专业领域知识，因为它是一个无监督的算法。在文本中使用基于图的排序算法需要构建一张关系图来表达文本、词语以及其他实体。

在中文里面，词语、短语、整个句子等都可以作为图中的顶点，在这些顶点之间建立联系，如：词序关系、语义关系、内容相似度等，就能够构建一张合适的关系图。

目前，TextRank在中文文本中的应用主要有三个方向，分别是：

1）关键词提取； 2）关键短语提取； 3）自动摘要。

Python中有一个名为 textrank4zh 的包实现了这三个功能，其源码地址为:

https://github.com/letiantian/TextRank4ZH , 实现了不错的文本处理效果。

效果预览

最近，Tushare Pro 发布了近10年的CCTV新闻联播数据，对数据进行了清洗和规范。

但是，每天的新闻联播内容共有上万字，完全的读下来也是比较费劲。如果使用自动摘要技术把这上万字的内容浓缩成10个句子，阅读负担一下子就减轻了不少。而自动摘要正是 TextRank 的用武之地。

在实现功能之前，我们先来看看从新闻中提取的摘要效果。

得益于Tushare提供的新闻联播规范文本，TextRank自动摘要效果看起来非常不错。

为什么TextRank能有这么好的效果呢？这主要是因为图排序模型是基于全局信息来计算每个顶点的重要性，而不是仅仅使用局部信息。下面简单介绍一下TextRank应用于自动摘要的基本原理。

基本原理

前面已经说到，使用TextRank分析文本，首先需要在文本上构建一张图。

对于文本自动摘要任务，我们使用句子作为图的顶点，句子与句子之间的相互关系作为图的边。这里不能简单的用句子在文本中的前后关系来构建图的边，我们需要评估句子与句子之间的相似度，每个句子仅与它最相似的几个句子之间构成连接，并使用相似度作为边的权重。

事实上，两个句子相似，可以认为这两个句子之间存在一种“推荐”关系，即：读者读完这个句子后，这个句子推荐读者去读跟它相似的句子。

评估两个句子相似度的方法有很多，比如：余弦相似度、编辑距离等，在TextRank算法中使用的是最基本方法，通过计算两个句子中相同词语的数量来计算相似度，此外，可以加语法过滤器对词语进行过滤。

确定了图的顶点和边是什么，以及边的权重，一张加权图（weighted graph）就已经得到了，这个加权图的形状如图1所示。接下来就可以使用PageRank去迭代计算每个顶点（句子）的重要性。最后，将最重要的N个句子作为整个文本的摘要，这就是TextRank的自动摘要结果。

代码实现

由于textrank4zh已经实现了TextRank的功能，我们拿过来直接使用就可以，而且用法极其简单。

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 大模型还是小模型？AI部署的困境与突破查看图片-20250222080026

17 小时前

Web3天空之城 · 【天空访谈·播客】AI, DeepSeek R1, 国产算力卡的适配进展, 算力自由

昨天

Web3天空之城 · 【天空访谈·播客】AI, DeepSeek R1, 国产算力卡的适配进展, 算力自由

昨天

机器之心 · 重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

2 天前

黄建同学 · 最近比较火🔥的Thinking Machine Lab的创始人-20250220124029

2 天前

爱可可-爱生活 · 【kg-gen：从任何文本中提取知识图谱的AI工具。亮点：1. -20250219195616

3 天前

央视财经 · 【健康】火遍世界的视力恢复法，现在知道还不晚！

8 年前

财税实务课堂 · 税务局为什么老找你？内部人士透露十大原因！！！

7 年前

市值风云 · A股猜猜乐：大妖股潜能恒信是不是空壳公司？

7 年前

钱江晚报 · 昏迷15个月的衢州男孩醒了！班主任为唤醒他讲了很多故事：你喜欢的女孩，希望你早点康复

7 年前

摄像人网 · 回归理性？EOS C300 Mark II海外价格大降

7 年前