专栏名称: Python新手营

数据，算法，人工智能

爬取知乎60万用户信息之后的简单分析

Python新手营 · 公众号 · AI · 2017-04-16 19:17

正文

我相信这么优秀的你

已经置顶了我

来源|Brian 选文|小象

禁止二次转载

在知乎上看到有个叫 @路人甲的大神每隔一段时间就爬爬豆瓣/B站等等网站，做了很多有意思的分析，加上之前因为实验室项目接触过 Nutch，浅尝辄止了，所以一直想好好玩玩爬虫。

网上 Python 的爬虫教程很多，而自己的主语言是 Java，本着宣传 Java，以练促学的目的，我使用 Java 爬取了知乎 60 万用户信息，主要想看看知乎上妹子多不多啊/是不是都是基佬啊，标配常青藤/年薪百万是不是真的啊，等等。

为了保证数据的质量，避免爬到一些僵尸号什么的，我选择爬取关注列表而非粉丝列表。我随机挑选了一位粉丝过千的优秀回答者作为起始，爬取他的关注列表，再对列表中的每个人爬取其关注列表，以此类推……

下载了大概 7 个小时，爬了 40 多万用户的关注列表，拿到了 10G 的数据，如图所示：

理论上有 800 多万用户，可惜有很多重复的，去重后将数据导入 Elasticsearch，得到 60+ 万用户数据:

推荐文章

爱可可-爱生活 · 【LLM Data Scrapers：为LLM训练和推理提供开源-20250224134759

18 小时前

爱可可-爱生活 · 【[924星]LegendApp/legend-list：一个高-20250223154041

昨天

爱可可-爱生活 · 【DigiQ：用AI驱动设备控制的新方法，让机器学习更高效！亮点-20250223130308

昨天

爱可可-爱生活 · 【[445星]EvalScope：一站式大模型评估与性能基准测试-20250221141932

3 天前

黄建同学 · Jim Fan评价：我最近见过的最酷的自主编码代理：使用 AI -20250221134403

3 天前

南国都市报 · 奇葩！60岁男子与小19岁女子闪婚！女方：每月零花1万，这事每次再1千

8 年前

科学解码 · 竟然确实存在比光速更快的事物！

8 年前

51CTO · 一张图带你玩转WOT峰会

7 年前

书法在线 · 书法高清大图（30000多张）

7 年前

每日经济新闻 · 这家公司用什么守护了三亿中国人的钱？

7 年前