专栏名称: 爱数据原统计网
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
51好读  ›  专栏  ›  爱数据原统计网

【送书第5波】R语言何以主数据天下之沉浮?

爱数据原统计网  · 公众号  · BI  · 2017-07-29 17:00

正文

我们常听R语言在数据分析领域的“赫赫威名”,那么传说中的“R语言”到底是什么鬼?


R语言,顾名思义,它首先是一门计算机的编程语言,就跟传统的C语言,Java语言类似,但是,它又不仅仅是一门计算机语言。这是因为,R语言天生为统计而生,所以,它做不到像C语言那般的普适,数据分析、统计建模、数据可视化才是它的舞台!


电子商务行业的十年发展以“先驱”的角色开启了大数据时代,近日笔者有幸拜读罗荣锦先生的《R语言数据分析项目精解:理论、方法、实战》一书,得以窥见电子商务背景下R语言在数据分析领域的异彩!



书中精彩以区区在下纸笔不足以道尽千万分之一,我们不妨以书中实例进行对R语言数据分析的解读。


接下来诸君同小编跟随罗荣锦老师,在互联网运营团队的工作场景下,了解一些实际有用的互联网运营指标。


当我们衡量互联网产品运营时,必然要建立一套运营指标体系,以便更好地监控产品的运营效果和效率。


这其中涉及到十分关键的骨灰级流量指标。所谓流量指标 就是指网站的有效访问,这个概念生动形象地反映了互联网的受欢迎程度。互联网中包含3个,分别是:PV(访问页面数)、UV(唯一访问人数)和Visit(会话)。这 3 个指标对移动互联网 APP 同样适用。


下面我们就这三个指标来仔细了解一下。


1.PV(Page Views)


PV 是指页面一共被加载了多少次,简单理解就是用户一共看了多少个页面,如图 3.1 所示。例如,一个用户一天查看了 10 个页面,那么这个用户这一天的 PV 就是 10;当天所有用户查看的页面数量总和就是当天这个网站或 APP 的所有 PV。


2.UV(Unique Vistors)


UV 是指唯一访问人数。在线上,开发人员通常会在页面上埋一个 Cookie 来识别同一个用户,只有当用户清理缓存时才会重新生成一个新的 Cookie。在 APP 上,开发人员同样可以生成一个 id 来识别用户。UV 更直观的理解就是当天有多少个用户(去重)访问了 APP。例如,同一个用户在一天内多次访问,计算 UV 时该用户只被统计一次。


UV 的计算口径一般有如下几个:日 UV、周 UV、月 UV、季度 UV、半年度 UV 和年度UV。对应的统计方式就是时间范围的不同,日 UV 是每天去重的访问人数,周 UV 是每周去重的访问人数等。UV 示意图如下图所示。



3.Visit(会话)


Visit 是指一个用户当天访问了多少次网站或 APP。初看起来这个概念很模糊,这里的多少次是怎么区分的呢?通常情况下,若一个用户两次访问时间超过 30 分钟,则认为该用户的两次访问属于两个不同的会话。下面通过一个实例加以说明,如下表1所示。


表1  Visit 实例

Client code

Page code

Start time

 会话 id

10001

p1

2016-11-11 14:52:04.890

1

10001

p2

2016-11-11 14:52:34.246

1

10001

p1

2016-11-11 17:10:22.049

2

10001

p3

2016-11-11 18:46:38.638

3

10001

p5

2016-11-11 18:46:41.004

3

10001

p1

2016-11-11 21:24:48.517

4

10001

p2

2016-11-11 21:25:09.971

4

10001

p1

2016-11-11 21:25:12.625

4

10001

p3

2016-11-11 21:25:16.632

4

10001

p5

2016-11-11 21:25:25.135

4

10001

p1

2016-11-11 21:25:29.022

4

10001

p2

2016-11-11 21:25:32.982

4


上表中是某一天某个用户的访问日志数据,当天这个用户一共访问了 12 个页面,我们可以看到,第 2 个页面和第 3 个页面的时间间隔远远大于 30 分钟,故以这两个页面为分界线,上面的属于一个会话,下面的属于另一个会话。同理,第 3 个页面和第 4 个页面的时间间隔也大于 30 分钟,故也分属不同的会话。以此类推。当天所有用户形成的会话数总和即为当天整个网站或 APP 的会话数。


除上述 3 个流量指标外,还有两个指标值得关注,分别是 Login(登录用户数)和 Active (激活用户数)。小编在此就不一一介绍了,这些指标均是R语言通统计学结合的产物,为互联网运营中的流量数据分析做出了不可磨灭的贡献。

综上,小编介绍了几个互联网中最基本的指标,这些指标的变形或组合形成了更多、更有意义的指标,对运营人员来说能够更加准确地洞悉产品每天的用户使用情况。

想要了解更多R语言在数据分析的海洋里“沉浮跌宕”的故事,小编建议各位放心大胆滴翻开《R语言数据分析项目精解:理论、方法、实战》这本书,相信各位在罗荣锦先生的“耐得住寂寞,忍受得了孤独”的治书态度里,会找到常见数据分析问题的解决之道!


【作者简介】


罗荣锦:应用统计学硕士、应用数学和国际经济与贸易双学士。有8年数据分析工作经验,先后从事过金融数据分析、网络游戏数据分析、B2B数据库营销以及互联网用户行为数据分析。现就职于携程旅行网担任资深数据分析师,主要从事用户行为分析研究、统计学与数据挖掘应用等工作,擅长统计建模,熟悉R语言、SAS、SPSS等数据挖掘工具。从事数据研究工作,一定要“耐得住寂寞,忍受得了孤独”。


【内容简介】


本书以互联网电商企业为背景,抽象出工作中常见的数据分析问题,利用 R 语言和统计学列出了详细的解决方案和过程。本书共 9 章,前两章分别为总论和 R 语言入门知识,之后各章分别介绍了运营指标的建立、指标监控系统、假设检验及 AB 测试、变量筛选技术、用户画像系统、寻找优质用户和文本挖掘等内容。本书涉及到的统计方法有:指标增长幅度量化方法、层次分析法、时间序列模型、基于正态分布的一元离群点检验、傅里叶谱分析、假设检验、主成分分析、因子分析、模糊聚类、无监督下连续型变量离散化、逻辑回归模型和文本挖掘等。另外,本书提供了所有实例的 R 语言实现代码,总计 33 个自定义函数和数千行代码。


本书适合数据分析从业人员、产品运营人员、统计专业学生和 R 语言爱好者阅读。


图书购买链接:https://item.jd.com/12125477.html?dist=jd


或者点击阅读原文


从留言区选获点赞数最高的前 5 


每人一本《R语言数据分析项目精解:理论、方法、实战》


活动截止时间:下周一 5:00pm


点击“阅读全文”,查看详情

推荐文章
婚姻家庭那些事儿  ·  你这么不容易,你老公知道吗?
7 年前
三国演义  ·  为何乾隆皇帝一定要传位给嘉庆?
7 年前
绿山投资  ·  库博公司的隐形眼镜生意
7 年前