专栏名称: 唧唧堂
唧唧堂学术管理分享平台,更好的学术阅读与写作!
目录
相关文章推荐
纪念币预约信息  ·  开始预约!国色天香彩色银币,龙头币! ·  21 小时前  
航空工业  ·  中航工业党组领导到相关单位开展调研工作 ·  21 小时前  
纪念币预约信息  ·  蛇钞二次预约号段公布!重点关注这些号码! ·  2 天前  
51好读  ›  专栏  ›  唧唧堂

腾讯课堂 | Python网络爬虫与文本分析

唧唧堂  · 公众号  ·  · 2021-05-17 23:49

正文

课程纲要

课程目标: 掌握Python语法、网络爬虫、文本分析、机器学习的核心知识点和分析思路 核心知识点: 爬虫原理及应用、 非结构化文本数据挖掘的思路及方法、机器学习应用等 环境配置: Python3.8及3.9仍处于Bug迭代开发阶段, 建议按照本课程安装3.7.5;如果电脑已经安装过Python和Anaconda等软件,建议全部卸载按照B站链接重新安装; 课件资料: 本课程全部使用jupyter notebook文件作为课程课件,购买课程后即可得到 代码数据等相关资料

课程特色

接地气: 以经管学术需求为导向, 将Python分为语法篇、采集数据篇、文本分析篇、机器学习篇四大部分 好理解: 知识点力求通俗易懂,少了晦涩的计算机术语,多了通俗易懂的使用场景和实战讲解 上手快: 所有知识点均有可重复使用的代码块,犹如一块块的积木,课后您可以根据分析需要,快速搭建出自己的Python代码

课程试听

课程python语法入门和网络爬虫部分可免费试听,对python感兴趣的童鞋可以收藏观看~

课程链接 https://ke.qq.com/course/482241 试听

课程目录

在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!

前大数据时代 ,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。

大数据时代 ,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:

1. 网络爬虫技术 解决 如何从网络世界中高效地 采集数据 2. 文本分析技术 解决 如何从杂乱的文本数据中 抽取文本信息(变量)

一、Python语法入门

Python跟英语一样是一种语言 数据类型之字符串 数据类型之列表元组集合 数据类型之字典 数据类型之布尔值、None 逻辑语句(if&for&tryexcept) 列表推导式 理解函数 常用的内置函数 文件路径库os库 数据存储csv库 初学python常出错误汇总

二、数据采集

网络爬虫原理 发现网址规律 网络访问requests库 网页解析pyquery库 案例 1 :豆瓣小说 如何解析json数据 案例 2 : 知乎 案例 3 : 微博 案例 4 : 如何下载多媒体文件 案例 5 : 巨潮资讯-批量下载上市公司定期报告pdf 案例 6 : 证券从业人员信息 案例 7 :api信息爬取 爬虫知识点总结

三、 文本处理入门

文本分析概述 读取文件中数据(pdf、docx、txt、excel) 数据清洗re库 案例 8 : 中文jieba分词及数据清洗 案例 9 : 词频统计(词云图制作) 案例 10 : 将多文件数据汇总到一个excel 案例 11 : 中文情感分析(词典法) 数据分析pandas库快速入门 案例 12 : 对excel中的文本进行情感分析 案例 13 :共现法扩展情感词典(领域词典) 从非结构化文本数据中提取结构化数据(文本数据清洗re库)

四、文本分析进阶

了解机器学习 使用机器学习做文本分析的流程 scikit-learn机器学习库简介 文本特征抽取(特征工程) 案例 14 :在线评论情感分析(机器学习法) 文本相似性(cos/编辑距离/jaccard) 案例 15 : 使用文本相似性自动识别冲击(改变的)时间点 案例 16 :Kmeans聚类算法 案例 17 :LDA话题模型 文本分析在经管研究中的应用 补充: 如何在R语言中调用Python的代码

课程购买

购买链接 https://ke.qq.com/course/482241 试听

支付成功后,可下载腾讯课堂app或网页端打开腾讯课堂官网,使用微信扫码登录后即可学习



文本分析相关论文

参照两篇论文的摘要,可以通过场景化等的方式帮助我们迅速理解上面两个问题。摘要部分的加粗内容是论文用到的分析技术,在我们的课程中均有与之对应的知识点和代码。

王伟,陈伟,祝效国,王洪伟.众筹融资成功率与语言风格的说服性——基于Kickstarter的实证研究[J].管理世界,2016(05):81-98.

摘要 :众筹融资效果决定着众筹平台的兴衰。众筹行为很大程度上是由投资者的主观因素决定的,而影响主观判断的一个重要因素就是语言的说服性。而这又是一种典型的用 户产生内容(UGC),项目发起者可以采用任意类型的语言风格对项目进行描述。不同的语 言风格会改变投资者对项目前景的感知,进而影响他们的投资意愿。首先,依据 Aristotle 修 辞三元组以及 Hovland 说服模型,采用扎根理论,将众筹项目的语言说服风格分为 5 类:诉诸可信、诉诸情感、诉诸逻辑、诉诸回报和诉诸夸张。







请到「今天看啥」查看全文