课程纲要
•
课程目标:
掌握Python语法、网络爬虫、文本分析、机器学习的核心知识点和分析思路
•
核心知识点:
爬虫原理及应用、 非结构化文本数据挖掘的思路及方法、机器学习应用等
•
环境配置:
Python3.8及3.9仍处于Bug迭代开发阶段, 建议按照本课程安装3.7.5;如果电脑已经安装过Python和Anaconda等软件,建议全部卸载按照B站链接重新安装;
•
课件资料:
本课程全部使用jupyter notebook文件作为课程课件,购买课程后即可得到
代码数据等相关资料
课程特色
•
接地气:
以经管学术需求为导向, 将Python分为语法篇、采集数据篇、文本分析篇、机器学习篇四大部分
•
好理解:
知识点力求通俗易懂,少了晦涩的计算机术语,多了通俗易懂的使用场景和实战讲解
•
上手快:
所有知识点均有可重复使用的代码块,犹如一块块的积木,课后您可以根据分析需要,快速搭建出自己的Python代码
课程试听
课程python语法入门和网络爬虫部分可免费试听,对python感兴趣的童鞋可以收藏观看~
课程链接 https://ke.qq.com/course/482241 试听
课程目录
在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!
在
前大数据时代
,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。
但
大数据时代
,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:
1.
网络爬虫技术
解决 如何从网络世界中高效地
采集数据
?
2.
文本分析技术
解决 如何从杂乱的文本数据中
抽取文本信息(变量)
?
一、Python语法入门
•
Python跟英语一样是一种语言
•
数据类型之字符串
•
数据类型之列表元组集合
•
数据类型之字典
•
数据类型之布尔值、None
•
逻辑语句(if&for&tryexcept)
•
列表推导式
•
理解函数
•
常用的内置函数
•
文件路径库os库
•
数据存储csv库
•
初学python常出错误汇总
二、数据采集
•
网络爬虫原理
•
发现网址规律
•
网络访问requests库
•
网页解析pyquery库
•
案例 1
:豆瓣小说
•
如何解析json数据
•
案例 2
: 知乎
•
案例 3
: 微博
•
案例 4
: 如何下载多媒体文件
•
案例 5
: 巨潮资讯-批量下载上市公司定期报告pdf
•
案例 6
: 证券从业人员信息
•
案例 7
:api信息爬取
•
爬虫知识点总结
三、 文本处理入门
•
文本分析概述
•
读取文件中数据(pdf、docx、txt、excel)
•
数据清洗re库
•
案例 8
: 中文jieba分词及数据清洗
•
案例 9
: 词频统计(词云图制作)
•
案例 10
: 将多文件数据汇总到一个excel
•
案例 11
: 中文情感分析(词典法)
•
数据分析pandas库快速入门
•
案例 12
: 对excel中的文本进行情感分析
•
案例 13
:共现法扩展情感词典(领域词典)
•
从非结构化文本数据中提取结构化数据(文本数据清洗re库)
四、文本分析进阶
•
了解机器学习
•
使用机器学习做文本分析的流程
•
scikit-learn机器学习库简介
•
文本特征抽取(特征工程)
•
案例 14
:在线评论情感分析(机器学习法)
•
文本相似性(cos/编辑距离/jaccard)
•
案例 15
: 使用文本相似性自动识别冲击(改变的)时间点
•
案例 16
:Kmeans聚类算法
•
案例 17
:LDA话题模型
•
文本分析在经管研究中的应用
•
补充: 如何在R语言中调用Python的代码
课程购买
购买链接 https://ke.qq.com/course/482241 试听
支付成功后,可下载腾讯课堂app或网页端打开腾讯课堂官网,使用微信扫码登录后即可学习
文本分析相关论文
参照两篇论文的摘要,可以通过场景化等的方式帮助我们迅速理解上面两个问题。摘要部分的加粗内容是论文用到的分析技术,在我们的课程中均有与之对应的知识点和代码。
王伟,陈伟,祝效国,王洪伟.众筹融资成功率与语言风格的说服性——基于Kickstarter的实证研究[J].管理世界,2016(05):81-98.
摘要
:众筹融资效果决定着众筹平台的兴衰。众筹行为很大程度上是由投资者的主观因素决定的,而影响主观判断的一个重要因素就是语言的说服性。而这又是一种典型的用 户产生内容(UGC),项目发起者可以采用任意类型的语言风格对项目进行描述。不同的语 言风格会改变投资者对项目前景的感知,进而影响他们的投资意愿。首先,依据 Aristotle 修 辞三元组以及 Hovland 说服模型,采用扎根理论,将众筹项目的语言说服风格分为 5 类:诉诸可信、诉诸情感、诉诸逻辑、诉诸回报和诉诸夸张。