正文
1.《前任3》为什么这么火爆
截止发文时《前任3》票房15.50亿,成为一匹黑马,我习惯性的去
豆瓣
看了评分
豆瓣上8万多人只打出了5.8的评分,其中1星-3星占比72.6%,那么问题来了,在绝大多数豆瓣粉丝都认为是“烂片”的情况下,究竟是什么让《前任3》票房意外火爆呢?
为了更能说明问题,通过一些舆情监测软件,我参考了一些社交圈的一些数据
点进去仔细看了一遍,这篇文章主要还是以一些经典的情感语录和分手的撕心裂肺来引起读者的共鸣或者是往事,蕊希的文章总是写的很成功,因为她知道什么样的内容可以打动读者的内心情感,看评论就知道了
所以前任三之所以火爆的原因也许是因为:分手?毕竟“分手”是感情世界里永不褪色的话题,也是最能触发观影者内心情感的话题,不过这只是我们的猜测。
作为一名程序员,我们当然不能只靠这些来说话,数据是最有说服力的,于是我爬取了一下豆瓣的影评。
2.采集豆瓣影评
有朋友私我说之前没怎么写过使用框架采集数据的教程,回过头想了想好像是很少使用框架去爬虫了,最早的一篇还是
Python网络爬虫(六)- Scrapy框架
,
戳我复习
,发现突然让自己用Scrapy还的确忘记从哪开始了,于是对着电脑开始发呆,大概度过了十分钟的贤者时间一下子重新掌握了Scrapy的整体思路,(
明明复习了一两个小时
)。
戳我学习Scrapy
流程如下:
-
创建一个Scrapy项目;
-
定义提取的Item;
-
编写爬取网站的 spider 并提取 Item;
-
编写 Item Pipeline 来存储提取到的Item(即数据)。
-
提取数据库数据,处理展示
scrapy startproject douban_qrs
cd douban_qrs
scrapy genspider douban https://movie.douban.com
|-- douban_qrs/
|-- scrapy.cfg
|-- spiders/
|-- __init__.py
|-- items.py
|-- pipelines.py
|-- settings.py
|-- spiders/
|-- __init__.py
|-- douban.py
难题:scrapy实现模拟登录
这里我又重新去翻了一遍文档,发现文档中是有描述的
参考文档
-
scrapy中cookies的写法,可以与request中cookie的写法对比下