专栏名称: 36大数据
关注大数据和互联网趋势,最大,最权威,最干货的大数据微信号(dashuju36)。大数据第一科技媒体。不发软文,只做知识分享。
目录
相关文章推荐
数据派THU  ·  科普之旅 | 人工神经网络中的神经元 ·  3 天前  
数据派THU  ·  KDD 2024 | 首个基于 ... ·  1 周前  
数据派THU  ·  NeurIPS 2024 | ... ·  1 周前  
软件定义世界(SDX)  ·  首个Sora逆向工程论文发布! ·  1 周前  
51好读  ›  专栏  ›  36大数据

【福利】Bilibili (B站)200万用户数据爬取与分析(附源码下载)

36大数据  · 公众号  · 大数据  · 2017-06-02 08:56

正文

在公众号对话框回复“17002”获取Bilibili用户分析源代码下载链接


该爬虫仅供学习使用


  1. B站用户爬虫

  2. B站视频爬虫

  3. B站弹幕下载器

文件介绍

  • bilibili_user.py:爬虫文件

  • bilibili_user_info.sql:数据库文件

  • get_face.py:用户头像下载器

基本概况

  • 总数据数:20119918

  • 抓取用户的顺序为其注册时间顺序:2009-06-24 14:06:54 至 2016-02-18 21:04:52

  • 预估遗漏数据:不超过 2%

  • 抓取字段:用户 id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。

性别

  • 有效数据:14643019

  • 保密:11621898

  • 男:1674196

  • 女:1346925

这个男女比例是有点出乎个人预料的,接近 1:1。其实之前初步抓了 2013 年暑假之前的数据,男女比例当时还在 3:1 这样。

可见明确性别的群体还是比较少的,只占了总数据的 15% 左右。

更多的分析日后再做。

年龄

  • 统计范围:1970-2010(1980 年除外)

  • 总数据:3800767


具体数据不放了,简单看一下统计结果吧。

主要用户分布在 93-00 年的用户(大概 16-23 周岁),其中 97 年(19 岁)用户占了绝对的主导地位。


事实证明,B 站小学生并不多,而是高中生、大学生比较多。

90 后用户占主体,但是用户年龄段正在不断后移。毕竟,是一个年轻人的网站。

地区

  • 分析范围:国内 34 个省市及地区。

  • 有效数据:863541

主要用户分布在:广东、江苏、北京、上海、浙江等地区。都是一些经济很发达的沿海地区。

注册时间

  • 统计时间:2009-06-24 14:06:54 至 2016-02-18 21:04:52

  • 总数据:20119823

由于 16 年才过去 2 个多月,所以少一点,不过可以预见其发展必将远超 2015 年。自 2009 年开站以来,每年用户几乎都是以指数级增长。

活跃度统计

  • 等级范围:0 – 6

  • 总数据:20119918

  • 截止时间:2016-02-18


由于 B 站有经验等级规则,用户的活跃度可以依据等级判断。


等级为 0,就是只注册未登陆过的用户。等级为 1 或 2,为非活跃用户。等级为 3 以上,就是活跃用户。其中等级为 5 或 6 的,为投稿数特别特别多、视频特别火爆的用户,为 B 站的主干用户(约 5000 人)。

关于留存率等数据,日后再统计分析。

粉丝统计

  • 有效数据:2011918

  • 范围:0 – 988323

  • 截止时间:2016-02-18 21:04:52

哎 – -,我也是有 2 个粉丝的人!

以下是 B 站 TOP20 用户。很多人都非常的眼熟哈。


在公众号对话框回复“17002”获取Bilibili用户分析源代码下载链接


 End 

你投稿,我送书

为了让大家能有更多的好文章可以阅读,36大数据联合华章图书共同推出「祈文奖励计划」,该计划将奖励每个月对大数据行业贡献(翻译or投稿)最多的用户中选出最前面的10名小伙伴,统一送出华章图书邮递最新计算机图书一本。投稿邮箱:[email protected]

点击查看:你投稿,我送书,「祈文奖励计划」活动详情>>>


阅读排行榜/精华推荐
1
入门学习

如果有人质疑大数据?不妨把这两个视频转给他 

视频:大数据到底是什么 都说干大数据挣钱 1分钟告诉你都在干什么

人人都需要知道 关于大数据最常见的10个问题

2
进阶修炼

从底层到应用,那些数据人的必备技能

如何高效地学好 R?

一个程序员怎样才算精通Python?

3
数据源爬取/收集

排名前50的开源Web爬虫用于数据挖掘

33款可用来抓数据的开源爬虫软件工具

在中国我们如何收集数据?全球数据收集大教程

4
干货教程

PPT:数据可视化,到底该用什么软件来展示数据?

干货|电信运营商数据价值跨行业运营的现状与思考

大数据分析的集中化之路 建设银行大数据应用实践PPT

【实战PPT】看工商银行如何利用大数据洞察客户心声?              

六步,让你用Excel做出强大漂亮的数据地图

 数据商业的崛起 解密中国大数据第一股——国双

双11剁手幕后的阿里“黑科技” OceanBase/金融云架构/ODPS/dataV

金融行业大数据用户画像实践


讲述大数据在金融、电信、工业、商业、电子商务、网络游戏、移动互联网等多个领域的应用,以中立、客观、专业、可信赖的态度,多层次、多维度地影响着最广泛的大数据人群

36大数据

长按识别二维码,关注36大数据



搜索「36大数据」或输入36dsj.com查看更多内容。


投稿/商务/合作:[email protected]



点击下方“阅读原文”查看更多

↓↓↓