点击上方“腾讯科技”,选择“置顶公众号”
关键时刻,第一时间送达!
文 / 贺嘉
微信公众号 / 跨界创新@贺嘉
从2010年创始之初,知乎在互联网行业一直就有着不小的关注度,不论是早期的邀请制,早期创新工场李开复老师的天使投资还是近期的腾讯领投C轮、今日资本领投的D轮融资都让知乎上了不少次科技媒体的头条。
私下里,互联网圈不少朋友也会时常上知乎去寻找今天可以和朋友们交流的热门话题,或者是看看来自不同行业的大牛们的长文解读,甚至于最近几次的百度魏则西事件,支付宝“白领日记”圈子等等舆论热点都是在知乎完成了第一轮舆论发酵。
因为我们团队在腾讯云近期也在负责和知乎有类似之处的PGC内容产品,腾云阁(腾云阁 - 腾讯云)。主要是邀请腾讯系的技术大牛和腾讯云客户中的架构师和中小开发者们来以技术文章的形式分享自己一手技术经验。目前正处于一个种子用户不足200人的冷启动阶段,所以想到成长的最好办法还是先找到行业的标杆,学习他人的思路并加以应用,内容社区PGC这方面的标杆必然少不了知乎。
为此我结合近期刚学习的python分析了一些PGC专业社区最为重要的部分内容。再加上近期用3个月的时间在知乎积累了11000+粉丝,获得了知乎“互联网”领域话题优秀回答者的标签,所以干脆把这次的分析整理成一篇文章,分享给其他和我一样对知乎社区演变、功能迭代、社区机制感兴趣的互联网产品经理和运营同学们。
知乎爬虫运行在腾讯云主机上的原因是怕被网站封IP,这里提醒下各位程序员在部署爬虫的时候注意不要调的太高并发,对于网站的正常用户访问造成影响,这也算是使用爬虫主要注意的一点基本技术素养吧。
1. 知乎200位种子用户中创业者占比最高,设计师类活跃度最高。
周源接受外界采访的时候说的知乎200名种子用户。通过分析四位创始人各自关注的前200名用户,并剔除重复数据,我们可以用爬虫获取他们的行业背景,在知乎的活跃程度(回答数)以及粉丝数量。
在158位有职业信息的用户中,以创业者(63人)占比最大,其次是程序员(27人),媒体人(21人)产品经理(17人),投资人(10人),设计师(10人),其他(艺术、教育等10人),这些互联网行业用户的认真答题氛围对于知乎的PGC氛围影响很大。
在知乎种子用户来源上我发现了不少有意思的现象,不少种子用户都是通过知乎内测阶段的邀请机制加入的,比如腾讯的CEO ponyma是和菜头邀请来的,和菜头又是dinehq.com创始人杜潇邀请来的。
很有意思的数据是,与邀请的早期用户占比数不同。到目前为止,用户的关注人数超过10000人占该类用户占比(用户在知乎活跃与否参考值),比例最高的是其他、设计师(60%),其次是媒体人(52%),产品经理(47%),创业者(44%),投资人(40%),程序员(15%),这部分活跃度的数据与作者本人日常在知乎万粉群里观察到的比例比较接近。
2. 知乎四位创始人在知乎上回答的时间分布-活跃曲线,看看知乎这样的社区产品是不是存在对于创始团队活跃度的依赖?
知乎CTO 李申申是四位创始人中最宅的,回答数量最少,最不活跃,当然不排除李申申 老师有小号,可以偷偷看@VCZH 轮子哥带逛的美女图片。张亮老师最活跃,个人回答问题数1408个 抵得上其他创始人回答数之和(1288个)。黄继新老师关注的知乎用户最多,关注了9000多人...爬了好一会...
3. 分析回答的问题中涉及关键词的词频分析,看看知乎的社区氛围在创始人们回答中体现的如何?
在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。
作为问答社区,知乎有以下几类词语讨论的较为频繁“问题”,“回答”,“为什么”,“如何”,“看待”。同时由于初期用户的背景“苹果、互联网、创新工场”等词汇出现,在几位创始人愿意回答的问题里出现的都比较频繁。
4.分析知乎四位创始人获赞最多的10个问题,分析这点纯粹是我个人好奇。
回答对应的问题 时间 点赞数 作者
##什么叫「见过大世面」?2013-1-21 10566个赞 张亮
##北师大东门的野草书店是一家怎样的书店?2013-7-2 9346个赞 张亮
##怎么看待恋人的恋爱史?2011-2-4 8557个赞 黄继新
##如何评价郭敬明小说改编的电影《小时代》?2013-7-7 6902个赞 张亮
##电影《社交网络》给你最深的感受是什么?2011-1-27 6438个赞 黄继新
##为什么在现实中从来见不到知乎大神那样的人?2015-3-25 5955个赞 张亮
##快速入睡有哪些妙招?2012-1-30 5904个赞 周源
##过去的五年(2011~2015)你经历了哪些重要的人生节点?对现在有哪些影响?2016-1-26 5226个赞 周源
##经常有人说史玉柱、周鸿祎等把握住了人性、人的欲望,是否能系统的说明人性、欲望有哪些?如何把握?能否推荐相关书籍?2013-7-23 4730个赞 张亮
##百度为什么不收购知乎?2011-11-3 4440个赞 张亮
小结:从以上数据我们可以看出
1)知乎的近200位种子用户中,互联网领域创业者、投资人、程序员、媒体人偏多,但是从用户活跃数据来看,知乎上、艺术、教育、电影等其他类目的用户也颇为活跃,“互联网”以外其他话题的火热,也是知乎能够走到今日用户规模的重要原因。
2)知乎社区亟待形成认真回答氛围的早期,需要创始团队积极参与社区内容建设。知乎的4位创始人在知乎成立的头三年2010-2012年累计回答了2345个问题,占他们4人累积回答数的86%,13-15年合计回答了312个问题,16年-17年一共才回答了39个问题,说明社区的氛围走上轨道了。
3)知乎的创始人们回答问题也不是都能达到超过1000个赞,知乎创始人们累计回答2696个问题,获赞27万,也就是平均1个回答100个赞左右,所以你的知乎回答,获赞数量有没有超过100个赞这个水准呢?
后续计划在下一篇文章中分析知乎产品迭代的版本历史,分析哪些是核心的功能迭代,知乎整体的信息流来源与分发机制,商业变现的产品形态;从知乎小管家的文章看社区机制的变化,社区成长的不同阶段,KOL群体演化的历史,比如传说中的知乎万粉群的存在。