我们常听R语言在数据分析领域的“赫赫威名”,那么传说中的“R语言”到底是什么鬼?
R语言,顾名思义,它首先是一门计算机的编程语言,就跟传统的C语言,Java语言类似,但是,它又不仅仅是一门计算机语言。这是因为,R语言天生为统计而生,所以,它做不到像C语言那般的普适,数据分析、统计建模、数据可视化才是它的舞台!
电子商务行业的十年发展以“先驱”的角色开启了大数据时代,近日笔者有幸拜读罗荣锦先生的《R语言数据分析项目精解:理论、方法、实战》一书,得以窥见电子商务背景下R语言在数据分析领域的异彩!
书中精彩以区区在下纸笔不足以道尽千万分之一,我们不妨以书中实例进行对R语言数据分析的解读。
接下来诸君同小编跟随罗荣锦老师,在互联网运营团队的工作场景下,了解一些实际有用的互联网运营指标。
当我们衡量互联网产品运营时,必然要建立一套运营指标体系,以便更好地监控产品的运营效果和效率。
这其中涉及到十分关键的骨灰级流量指标。所谓流量指标 就是指网站的有效访问,这个概念生动形象地反映了互联网的受欢迎程度。互联网中包含3个,分别是:PV(访问页面数)、UV(唯一访问人数)和Visit(会话)。这 3 个指标对移动互联网 APP 同样适用。
下面我们就这三个指标来仔细了解一下。
1.PV(Page Views)
PV 是指页面一共被加载了多少次,简单理解就是用户一共看了多少个页面,如图 3.1 所示。例如,一个用户一天查看了 10 个页面,那么这个用户这一天的 PV 就是 10;当天所有用户查看的页面数量总和就是当天这个网站或 APP 的所有 PV。
2.UV(Unique Vistors)
UV 是指唯一访问人数。在线上,开发人员通常会在页面上埋一个 Cookie 来识别同一个用户,只有当用户清理缓存时才会重新生成一个新的 Cookie。在 APP 上,开发人员同样可以生成一个 id 来识别用户。UV 更直观的理解就是当天有多少个用户(去重)访问了 APP。例如,同一个用户在一天内多次访问,计算 UV 时该用户只被统计一次。
UV 的计算口径一般有如下几个:日 UV、周 UV、月 UV、季度 UV、半年度 UV 和年度UV。对应的统计方式就是时间范围的不同,日 UV 是每天去重的访问人数,周 UV 是每周去重的访问人数等。UV 示意图如下图所示。
3.Visit(会话)
Visit 是指一个用户当天访问了多少次网站或 APP。初看起来这个概念很模糊,这里的多少次是怎么区分的呢?通常情况下,若一个用户两次访问时间超过 30 分钟,则认为该用户的两次访问属于两个不同的会话。下面通过一个实例加以说明,如下表1所示。
表1 Visit 实例 |
Client code | Page code | Start time | 会话 id |
10001 | p1 | 2016-11-11 14:52:04.890 | 1 |
10001 | p2 | 2016-11-11 14:52:34.246 | 1 |
10001 | p1 | 2016-11-11 17:10:22.049 | 2 |
10001 | p3 | 2016-11-11 18:46:38.638 | 3 |
10001 | p5 | 2016-11-11 18:46:41.004 | 3 |
10001 | p1 | 2016-11-11 21:24:48.517 | 4 |
10001 | p2 | 2016-11-11 21:25:09.971 | 4 |
10001 | p1 | 2016-11-11 21:25:12.625 | 4 |
10001 | p3 | 2016-11-11 21:25:16.632 | 4 |
10001 | p5 | 2016-11-11 21:25:25.135 | 4 |
10001 | p1 | 2016-11-11 21:25:29.022 | 4 |
10001 | p2 | 2016-11-11 21:25:32.982 | 4 |
上表中是某一天某个用户的访问日志数据,当天这个用户一共访问了 12 个页面,我们可以看到,第 2 个页面和第 3 个页面的时间间隔远远大于 30 分钟,故以这两个页面为分界线,上面的属于一个会话,下面的属于另一个会话。同理,第 3 个页面和第 4 个页面的时间间隔也大于 30 分钟,故也分属不同的会话。以此类推。当天所有用户形成的会话数总和即为当天整个网站或 APP 的会话数。
除上述 3 个流量指标外,还有两个指标值得关注,分别是 Login(登录用户数)和 Active (激活用户数)。小编在此就不一一介绍了,这些指标均是R语言通统计学结合的产物,为互联网运营中的流量数据分析做出了不可磨灭的贡献。
综上,小编介绍了几个互联网中最基本的指标,这些指标的变形或组合形成了更多、更有意义的指标,对运营人员来说能够更加准确地洞悉产品每天的用户使用情况。
想要了解更多R语言在数据分析的海洋里“沉浮跌宕”的故事,小编建议各位放心大胆滴翻开《R语言数据分析项目精解:理论、方法、实战》这本书,相信各位在罗荣锦先生的“耐得住寂寞,忍受得了孤独”的治书态度里,会找到常见数据分析问题的解决之道!
【作者简介】
罗荣锦:应用统计学硕士、应用数学和国际经济与贸易双学士。有8年数据分析工作经验,先后从事过金融数据分析、网络游戏数据分析、B2B数据库营销以及互联网用户行为数据分析。现就职于携程旅行网担任资深数据分析师,主要从事用户行为分析研究、统计学与数据挖掘应用等工作,擅长统计建模,熟悉R语言、SAS、SPSS等数据挖掘工具。从事数据研究工作,一定要“耐得住寂寞,忍受得了孤独”。
【内容简介】
本书以互联网电商企业为背景,抽象出工作中常见的数据分析问题,利用 R 语言和统计学列出了详细的解决方案和过程。本书共 9 章,前两章分别为总论和 R 语言入门知识,之后各章分别介绍了运营指标的建立、指标监控系统、假设检验及 AB 测试、变量筛选技术、用户画像系统、寻找优质用户和文本挖掘等内容。本书涉及到的统计方法有:指标增长幅度量化方法、层次分析法、时间序列模型、基于正态分布的一元离群点检验、傅里叶谱分析、假设检验、主成分分析、因子分析、模糊聚类、无监督下连续型变量离散化、逻辑回归模型和文本挖掘等。另外,本书提供了所有实例的 R 语言实现代码,总计 33 个自定义函数和数千行代码。
本书适合数据分析从业人员、产品运营人员、统计专业学生和 R 语言爱好者阅读。
图书购买链接:https://item.jd.com/12125477.html?dist=jd
或者点击阅读原文
从留言区选获点赞数最高的前 5 名
每人一本《R语言数据分析项目精解:理论、方法、实战》
活动截止时间:下周一 5:00pm