专栏名称: 野蛮人诺基亚
目录
相关文章推荐
51好读  ›  专栏  ›  野蛮人诺基亚

我爬取了自己的900个粉丝数据,发现了不得了的事情……

野蛮人诺基亚  · 简书  ·  · 2017-10-30 18:45

正文

请到「今天看啥」查看全文


一直对我简书里平均每天增加的几十个粉丝比较感兴趣,今天兴起爬了一部分,做了一点点小分析,拿出来大家看看。

之所以对这些粉丝感兴趣,是因为我的3000+粉丝里,绝大多数是无发文、无粉丝的,怎么都感觉他们像机器人。

应该是简书有所限制,爬虫只能爬到前900个粉丝,暂用这一部分了。

爬取的字段包括: 昵称、关注数、粉丝数、文章数和主页链接 五个字段。

先给粉丝分个类

900个数据不需要高端大气的机器学习了,Excel散点图足以。

把粉丝数和文章数作为用户的产出,关注数作为用户的输入,得到下面这么一个散点分布

横轴是粉丝数+文章数;纵轴是关注数

看图可以发现绿圈里面的人产出多,关注少,可以算是大V了;紫圈里面的是产出和关注中等,属于普通用户;红圈就比较好玩了,产出少但是关注很多,这些粉丝就值得关注了。

把产出为0的粉丝单独摘出来做个图:

可以看到除了有一个老铁关注了390人以外,100-400之间断断续续有20多人,人主要集中在0-100之间。所以,再截取一下:

这个图又比较好玩了:40以上又是断断续续,关注数量集中在40和20上线。仔细看图,里面分别在4和25这两个点附近有断层。可能是我爬取的数据比较小。不做研究了~

用户ID的研究

下面的内容似乎会触及到简书的利益,所以如果不合适烦劳各位编辑告知删除。

用户的主页都是这样:

http://www.jianshu.com/u/ 2317cbc1f6fa

之所以加密后面的字段是为了防止别有居心的人按照ID递增爬取大量爬取用户信息。当然也是为了隐藏真实的用户数量了,毕竟还要拉投资。

研究这些ID发现,都是由0-9数字和a-f字母组成,所以肯定会首先想到是16进制数字。

把被加密的字段转换成10进制数,加1转回16进制后,发现并不存在这个链接。所以肯定不是直接转化这么简单了。

不过还是要转化一下的,把爬取的所有用户ID加密字段转换成10进制数后做散点图,发现了不得了的事情:

笔直的直线啊,这妥妥的线性相关的节奏,回归分析走起来!

不得了了啊,相关系数近乎1,P值为0!

所以我准备猜测用户ID的加密方式是

原始数字序列×某个系数+某个常数→十六进制

只是简单猜测,并没有实际计算和测试。

我想,偌大个网站这么多优秀的工程师肯定不会用这么简单的方式加密,最起码得整个不可逆的哈希加密吧~







请到「今天看啥」查看全文