专栏名称: 唧唧堂

唧唧堂学术管理分享平台，更好的学术阅读与写作！

Python网络爬虫与文本数据分析

唧唧堂 · 公众号 · · 2019-11-12 11:30

正文

在过去的两年间，Python一路高歌猛进，成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员，而是数据科学家，尤其是社会科学家，涵盖的学科有 经济学、管理学、会计学、社会学、传播学、新闻学 等等。

大数据时代到来，网络数据正成为潜在宝藏，大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究，面临两大难点：

数据的获取
文本（非结构化）数据的处理与分析

数据获取需要借助Python编程语言设计网络爬虫，而获得的数据中有相当比例数据是非结构化数据，这就需要文本数据分析技术。 本次课程参照已发表的社科类的文章，希望帮助大家解决文本分析这最难的两大难点。 课程设计的初衷是用最少的时间让大家学到最有用的知识点，降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解，方便各位开展后续研究。

课程内容

第一部分 Python基础(2小时)

python跟英语一样也是一种语言

环境配置

jupyter notebook使用方法

数据类型-list、str、dict、tuple、set

for循环、if逻辑

try-except

常用函数

常用库

pip安装问题解决办法

常见错误

第二部分网络爬虫(2小时)

网络爬虫原理

开发者工具使用

数据抓包

requests库

pyquery库

元素（数据）定位

数据存储（txt，csv）

案例1：天涯论坛

案例2：大众点评‍

案例3：BOSS直聘

案例4：百度企业信用

案例5：京东评论

第三部分文本分析入门(2小时)

文本分析应用场景

txt、pdf、word等类型文件的数据读取

中文分词-jieba库

可视化-pyecharts库

英文通用情感词库-Harvard-IV4

英文金融会计领域情感词库Loughran&MCdonald

常见的中文情感词典

中文情感词典的构建及使用

数据分析-pandas库

案例1-词频统计

案例2-制作词云图

案例3-海量公司年报文本分析

案例4-使用情感词典进行情感计算

第四部分文本分析进阶(2小时)

什么是机器学习

监督学习与非监督学习

使用机器学习进行文本分析的步骤

表达文本数据信息的方式（独热编码、词袋法、TF-IDF）

文本可读性计算

公司年报信息含量(标准信息与特有信息)计算思路

理解特征矩阵、语料、文档、特征

机器学习库-sklearn语法学习

了解协同过滤-推荐系统

案例1-在线评论情感分析

案例2-文本分类

案例3-LDA话题模型

案例4-计算消费者异质性信息

Python网络爬虫与文本数据分析

正文

请到「今天看啥」查看全文