专栏名称: Python中文社区
致力于成为国内最好的Python开发者学习交流平台,这里有关于Python的国内外最新消息,每日推送有趣有料的技术干货和社区动态。 官方网站:www.python-cn.com
目录
相关文章推荐
Python开发者  ·  matplotlib + ... ·  5 天前  
Python开发者  ·  突发!OpenAI 紧急上书,呼吁禁用 ... ·  4 天前  
Python爱好者社区  ·  75k,直接封神! ·  2 天前  
Python爱好者社区  ·  董事长。。。刺死。。。技术总监。。。已被捕。。。 ·  5 天前  
Python爱好者社区  ·  北京大学第四弹:DeepSeek私有化部署和 ... ·  3 天前  
51好读  ›  专栏  ›  Python中文社区

Python通过抓包和使用cookie爬取微博完全讲解(附视频)

Python中文社区  · 公众号  · Python  · 2017-03-21 21:56

正文

專 欄

邓旭东 ,Python中文社区专栏作者。

简书:

http://www.jianshu.com/u/1562c7f16a04

今天给大家录制了一个爬新浪微博的爬虫,也用到了抓包分析网址,但相较于以前,单纯的使用抓包分析网址在新浪微博是无效的。

cookie是什么

某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。目前有些 Cookie 是临时的,有些则是持续的。临时的 Cookie 只在浏览器上保存一段规定的时间,一旦超过规定的时间,该 Cookie 就会被系统清除。持续的 Cookie 则保存在用户的 Cookie 文件中,下一次用户返回时,仍然可以对它进行调用。

注意:

微博中的cookie有时间限制,如果运行有问题,可以更换下cookie

如何使用cookie

  1. Cookie = {‘Cookie’: UM_distinctid=15ab64ecfd6592-0afad5b368bd69-1d3b6853-13c680-15ab64ecfd7b6; remember_user_token=W1sxMjEzMTM3XSwiJDJhJDEwJHhjYklYOGl2eTQ0Yi54WC5seVh2UWUiLCIxNDg5ODI2OTgwLjg4ODQyODciXQ%3D%3D---ac835770a030c0595b2993289e39c37d82ea27e2; CNZZDATA1258679142=559069578-1488626597-https%253A%252F%252Fwww.baidu.com%252F%7C1489923851’}

我们要构造成字典格式,如上。这样应用到请求网址的时候添加到请求头中去即可(不懂也没关系,继续往下看,有视频讲说的)。

requests库

rquests is an elegant and simple HTTP library for Python, built for human beings. Requests是一个优雅简洁的Python HTTP库,给人类使用。







请到「今天看啥」查看全文