专栏名称: 爱数据原统计网
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
51好读  ›  专栏  ›  爱数据原统计网

太棒了!利用新接口抓取微信公众号的所有文章

爱数据原统计网  · 公众号  · BI  · 2017-07-30 17:00

正文

请到「今天看啥」查看全文



各位小伙儿伴儿,一定深受过采集微信公众号之苦吧!特别是!!!!!!公众号历史信息!!!这丫除了通过中间代理采集APP,还真没什么招数能拿到数据啊!

直到············


前段时间晚上微信官方发布了一个文章: 点我


大致意思是说以后发布文章的时候可以直接插入其它公众号的文章了。

诶妈呀!这不是一直需要的采集接口嘛!啧啧 天助我也啊!来来·········下面大致的说一下方法。


1、 首先你需要一个订阅号! 公众号、企业号是否可行我不清楚。因为我木有·····


2、 其次你需要登录!


微信公众号登录我没仔细看。


这个暂且不说了,我使用的是selenium 驱动浏览器获取Cookie的方法,来达到登录的效果。


3、 使用requests携带Cookie、登录获取URL的token(这玩意儿很重要每一次请求都需要带上它)像下面这样:



4、 使用获取到的token,和公众号的微信号(就是数字+字符那种),获取到公众号的fakeid(你可以理解公众号的标识)



我们在搜索公众号的时候浏览器带着参数以GET方法想红框中的URL发起了请求。请求参数如下:



请求相应如下:



代码如下:



好了 我们再继续:


5、 点击我们搜索到的公众号之后,又发现一个请求:



请求参数如下:



返回如下:



代码如下:



好了···最后一步,获取所有文章需要处理一下翻页。翻页请求如下:



我大概看了一下,极客学院每一页大概至少有5条信息,也就是总文章数/5 就是有多少页。但是有小数,我们取整,然后加1就是总页数了。


代码如下:



item.get(‘link’)就是我们需要的公众号文章连接啦!继续请求这个URL提取里面的内容就是啦!


ps:查看完整测试代码请点击阅读原文,在文末


End.

作者:崔庆才(中国统计网特邀认证作者)







请到「今天看啥」查看全文