专栏名称: AI报道
大数据时代,做数据的玩家!
目录
相关文章推荐
软件定义世界(SDX)  ·  2024年中国AI大模型场景探索及产业应用调研报告 ·  昨天  
数据派THU  ·  【NeurIPS2024】通过双曲嵌入学习结 ... ·  5 天前  
51好读  ›  专栏  ›  AI报道

数据分析入门好书推荐

AI报道  · 公众号  · 大数据  · 2017-06-29 18:11

正文

不知道如何应用数据图表?

不清楚数据分析的方法论和统计学知识?

不了解数据分析的实战应用?

数据分析与运营实操对接不上?

如果你在工作中有以上问题,那么你需要这本书!

互联网从业人员必备实务指南

阿里巴巴集团资深副总裁胡晓明,明道创始人任向晖联合力荐!

京东链接:https://item.jd.com/12182912.html

 

本书特色


√数据图表正确地呈现方式、经常忽略的重要作图技巧解析

√从数据认知到量化分析再到运营决策全面突破

√GrowingIO创始人张溪梦、神策数据创始人桑文锋倾力奉献内容

√作者数据分析工作中的感悟和经验分享,带你避开雷区

 

内容架构


具体的数据图表讲解

帮助执行层正确地绘图,管理层正确地看图

运营中最基本的数据应用知识

涉及数据获取、数据清洗、数据认知、分析框架、指标体系、运营实验等内容

必要的统计学知识

包括假设检验、方差分析、回归分析和时间序列分解,

并引入了管理科学中的规划求解方法

数据分析工具的发展趋势+作者近年的工作及学习心得

 

作者简介


胡晨川,一个热爱数据分析并努力成为数据科学家的年轻人,现任职于国内知名网上订餐平台“饿了么”,个人微信公众号“川术”。


试读样章  欢迎试读


5.1  用朴素贝叶斯模型进行预测


“任何事件都是条件概率。”为什么这样说呢?因为任何事件的发生都不是完全偶然的,都会以其他事件的发生为基础。换句话说,条件概率就是在其他事件发生的基础上,某事件发生的概率。条件概率是朴素贝叶斯模型的基础。

假设川术公司正面临用户流失的压力。虽然能计算用户整体流失的概率(流失用户数/用户总数),但这个数字并没有多大意义,因为资源有限,利用这个数字只能撒胡椒面似地把钱撒在所有用户上,显然不经济。你非常想根据用户的某种行为,精确地估计一个用户流失的概率,若这个概率超过某个阈值,再触发用户挽留机制。这样能把钱花到最需要花的地方。

你搜遍脑海里的数据分析方法,终于,一个250年前的人名在脑中闪现,就是“贝叶斯(Bayes)”。你取得了近一个月的流失用户数、流失用户中未读消息大于5条的人数、近一个月的活跃用户数及活跃用户中未读消息大于5条的人数。因为只是举例,定义流失和确定取数字段的过程我们省略。在此基础上,你便知道当某个用户的未读消息大于5条时他的流失概率。为了解释清楚贝叶斯模型,我们先定义一些名词。

  • 概率(Probability):0和1之间的一个数字,表示一个特定结果发生的可能性。比如投掷硬币,“正面朝上”这个特定结果发生的可能性为5,这个0.5就是概率。换一种说法,计算样本数据中出现该结果次数的百分比,即投一百次硬币,正面朝上的次数基本上是50次。

  • 几率(Odds):某一特定结果发生与不发生的概率比。如果明天电梯上遇上暗恋的女孩的概率是1,那么遇不上她的概率就是0.9,那么遇上暗恋女孩的几率就是1/9,几率的取值范围是0到无穷大。

  • 似然(Likelihood):两个相关的条件概率之比,即给定B发生的情况下,某一特定结果A发生的概率和给定B不发生的情况下A发生的概率之比。另一种表达方式是,给定B的情况下A发生的几率和A的整体几率之比。两个计算方式是等价的。

上面在似然中提到了条件概率,我们有必要将什么是条件概率做更详尽的阐述。

图5-1所示为韦恩图,我们用矩形表示一个样本空间,代表随机事件发生的一切可能结果。在统计学中,我们用符号P表示概率,A事件发生的概率表示为P(A),两个事件间的概率表达实际上相当烦琐,本书只介绍用得着的关系。

(1)A事件与B事件同时发生的概率表示为P(AB),或简写为P(AB),即两个圆圈重叠的部分。

(2)A不发生的概率为1-P(A),写为P(~A),即矩形中除了圆圈A以外的其他部分。

(3)A或者B至少有一个发生的概率表示为P(AB),即圆圈A与圆圈B共同覆盖的区域。

(4)在B事件发生的基础上发生A事件的概率表示为P(A|B),这便是我们前文所提到的条件概率,图形上它是AB重合的面积比上B的面积。

图5-1  概率的表达

更多条件概率的内容,读者可以参考《深入浅出数据分析》或者《概率论与数理统计》。

回到我们的例子。以P(A)代表用户流失的概率,P(B)代表用户有5条以上未读信息的概率,P(B|A)代表用户流失的前提下未读信息大于5条的概率。我们要求未读信息大于5条的用户流失的概率,即P(A|B),贝叶斯公式为:

P(A|B)=P(B|AP(A)/P(B)

如图5-2所示,由这个公式就能轻松计算出,在观察到某用户的未读信息大于5条时,他流失的概率为80%。80%的数值比原来的30%真是靠谱太多了。

图5-2  朴素贝叶斯模型计算样例

当然,现实情况并不像这个例子这么理想化。有读者会问,为什么你会想到用“未读消息大于5条”作为条件概率?现实情况中可能要找很多能够突显用户流失的行为,然后一一做贝叶斯规则测算它们是否能显著识别用户流失。寻找这个字段的效率,取决于对业务的理解程度和直觉的敏锐性。另外,还需要定义“流失”和“活跃”,定义贝叶斯规则计算的基础样本,这决定了结果的精度。


  • 5.1.1  利用全概率公式的一个例子


朴素贝叶斯的应用不止于此,我们再举一个更复杂、更实际的案例。假设为了肃清电商平台上的恶性商户(刷单、非法交易、恶性竞争等),作为川术公司的CEO,你委托算法团队开发了一个识别商家是否是恶性商户的模型M1。为什么要开发模型呢?因为之前识别恶性商家,你只能通过用户举报和人工识别异常数据的方式,人力成本高且速度慢。你指望有智能的算法提高效率。

之前监察团队的成果告诉我们,目前平台上的恶性商户比率为0.2%,记为P(E),那么P(~E)就是99.8%。利用模型M1进行检测,发现在监察团队已判定的恶性商户中,由模型M1判定为阳性(恶性商户)的人数占比为90%,这是一个条件概率,表示为P(P|E)=90%;在监察团队判定为健康商户的群体中,由模型M1判定为阳性的人数占比为8%,表示为P(P|~E)=8%。乍看之下,是不是觉得这个模型的准确度不够呢?感觉对商户有8%的“误杀”,还有10%的漏判。其实不然,这个模型的结果不是你想当然地这么使用的。

这里,我们需要使用一个称为“全概率公式”的计算模型来计算在M1判别某个商户为恶性商户时,这个结果的可信度有多高。这正是贝叶斯模型的核心。当M1判别某个商户为恶性商户时,这个商户的确是恶性商户的概率由P(E|P)表示:

P(E|P)=P(P|EP(E)/[P(EP(P|E)+P(~EP(P|~E)]

上面就是全概率公式。要知道判别为恶性商户的前提下,该商户实际为恶性商户的概率,需要由先前的恶性商户比率P(E),已判别的恶性商户中的结果为阳性的商户比率P(P|E),已判别为健康商户中的结果为阳性的比率P(P|~E),已判别商户中健康商户的比率P(~E)共同决定,如表5-1所示。

表5-1  全概率公式的应用案例


P(E)

0.2%

P(P|E)

90%

P(~E)

99.8%

P(P|~E)

8%

P(E|P)= P(P|E) ×P(E)/[P(E) ×P(P|E)+P(~E) ×P(P|~E)]

2.2%

将数字代入全概率公式后,获得的结果为2.2%。也就是说,根据M1的判别结果,某个商户实际为恶性商户的概率为2.2%,是不进行判别的0.2%的11倍。

你可能认为2.2%的概率并不算高。但实际情况下,被M1模型判别为恶性商户,说明这家商户做出恶性行为的概率是一般商户的11倍,非常有必要用进一步的手段进行检查。恶性商户判别模型真正的使用逻辑如图5-3所示。先用M1进行一轮判别,结果是阳性的商户,说明出现恶性行为的概率是一般商户的11倍,那么有必要用精度更高的方式进行判别,或者人工介入进行检查。精度更高的检查和人工介入成本都是非常高的,因此M1模型的使用能够使我们的成本得到大幅节约。

图5-3  贝叶斯模型的应用

贝叶斯模型在很多场景都有应用,熟知的领域就有垃圾邮件识别、文本的模糊匹配、欺诈判别、商品推荐等。通过对贝叶斯模型的阐述,大家应该有这样一种体会:分析模型并不取决于多么复杂的数学公式、多么高级的软件工具、多么高深的算法组合,它们的原理往往是通俗易懂的,实现起来也没有多高的门槛。以贝叶斯模型为例,用Excel的单元格和加减乘除等符号就能实现。所以,不要觉得数据分析建模有多遥远,其实就在你手边。


  • 5.1.2  让大数定律给你自信


大数定律可以简单表述为:当实验次数足够多时,某事件发生的概率一定会收敛于它的基本概率。例如,你抛10次硬币,很可能正面朝上的次数不是10×0.5=5次,极有可能是6次或7次,偏离它的本质概率0.5很多。若你抛1000次,那么正面朝上的概率一定会在500次左右,很难偏离到700次。

那么,大数定律会出现在哪些现实场景里呢?我们来举个典型的例子。

你想知道用户的流失概率是多少,于是选取了10个用户,观察他们一段时间后,发现有6个用户流失了,你得出的结论是用户的流失率为60%。这显然是靠不住的。若你选择了1000个用户,观察他们中有100个流失,得出流失率10%的结论,这就相对可靠。在互联网公司,也许都不需要抽样,观察所有用户在一段时间的使用情况,得出的流失率就是准确可靠的流失率。

在问卷调查时,大数定律也有重要应用。为什么问卷调查的结果是可信的呢?或者说结果要怎样才算可信呢?首先就是回答人数要足够多。只有回答数够多,依据大数定律,才能认为所回答的内容代表了总体的信息。那么多大的回答数量合适呢?作者只能给出两个不严谨经验数字。如果是小范围的回收率在70%以上的调查,回答人数大于40就可以认为是可靠的;若是大范围地发布问卷,回收率往往是不能保证的,那么回答人数得大于200以上信息才可信。其次是调查对象的选择不能对所要调查的内容造成偏移。例如,对客户满意度的调查,不能选择好评率高的客户群体进行调查,而应该覆盖到各个好评层级。


  • 5.1.3  窥一斑而见全豹:中心极限定理


尽管在大数据时代,我们依然会遇上数据量过大或者运算过复杂,导致不能有效地汇总总体的信息。那么,我们怎么办呢?抽样!从总体中按照某种规则,将一小部分观察个体取出,组成一个较小的群体,这个较小的群体就称为样本。只要抽样的规则是符合随机性原则的,样本的数量能够满足大数定律,样本的信息能够代表总体的信息,两者的偏差不会很大。以上表述就被称为“中心极限定理”,它让你具备了窥一斑而见全豹的能力。

引用《赤裸裸的统计学》中的一个例子帮助读者更好地理解中心极限定理。



假设你生活的城市正在举办一场马拉松比赛,来自各国的运动员在签到后会随机分配到多辆驶往起点的长途大巴上。不幸的是,其中一辆车没有到达起点,车上的人都没有手机和GPS,你们只能人肉寻找。你发现在你家附近有一辆抛锚的长途客车,上面有许多国际乘客,其中没有人会说英语。你认为这极有可能是那辆失踪的马拉松大巴,但仔细一看你发现不对,车里的乘客大部分是胖子,于是你告诉搜索总部:“不是这辆车,请继续搜索。”

进一步调查证实了你的判断。这群人是去参加国际香肠节的,而不是马拉松比赛。为什么你能做出这个准确的判断呢?因为跑马拉松的胖子,这样的事情出现的概率太小了。通过快速观察车上乘客的体型来判断他们并非马拉松运动员,这个过程就包含了中心极限定理的核心要义。




中心极限定理的含义就是,一个大型样本的正确抽样与其所代表的群体存在相似关系。当然,每个样本之间肯定会存在差异性,但是任意样本与整体之间存在巨大差异的概率是极小的。正是有这个逻辑,我们才能做出统计推断或者假设检验。


5.2  使用假设检验进行理性的推断


本节的内容完全依赖于前文中的大数定律与中心极限定理。所有例子都以足够多的样本数量和随机的抽取原则为前提。这部分内容是统计学中最奇妙的,也是较难掌握的,但一旦对此有所理解,你会发现自己变得更聪明了。

统计学可以分为描述统计和推断统计两个分支。描述统计在第4章中有过详细的论述。它的目的就是从数据集中抽象出信息,告诉我们“这是什么”或者“发生了什么”,而推断统计则更进一步,告诉我们“会怎么样”或者“为什么会这样”。描述统计是推断统计的基础。在作者看来,虽然推断统计学比描述统计更难,但它对业务的指导性更大。

以川术公司的产研团队为例。假设产研部门对用户交互做了大规模的改动,形成了版本B,与之前的版本A进行对比。虽然有了A/B测试工具,但是面对版本A和版本B的大量用户使用数据,如何得出是否版本B比版本A有改进的答案呢?千万不要说“看数据哪个高就知道了啊”。要把自己当成“科学家”,针对“版本B是否有改进”做一次科学的实验推断。A和B两个版本必须是随机地分配给两群数量差不多的用户,而且每个群体的人数需要足够多。

我们的研究路线可以简洁地描述为

 


分解问题→建立假设→验证假设→得出结论



首先,我们需要将问题进行分解。因为要回答是否有改进,就得先知道在哪些地方做了改进,然后基于这些动作建立假设,如图5-4所示。由于这只是举例,所以不会罗列太多的分解项。

图5-4  分解问题并建立假设

接着是建立假设。这里需要注意,并不是随意地根据功能优化提问题。提问需要注意以下两点。

  • 1.问题必须是可量化的

为了验证功能有优化,必须从能量化的指标去反映。指标并不局限于数据库记录,也可以是用户调查、使用实验等外部手段。

  • 2.使用的量化指标必须是信度和效度有保障的

信度与效度的概念在第4章中阐述了。在这里,尤其要注意效度。指标的增长必须意味着你所衡量的问题的改善。例如,使用时切换频率的降低,意味着用户操作更简便,这确实意味着产品功能上有一定的优化,但要找到这个指标其实并不容易。

建立完假设后,要针对假设进行判断,观察到底指标有没有改善。以“使用者的切换频率是否降低?”这个假设为例,我们需要遵从以下逻辑。

(1)B版本相对于A版本切换频率是否下降?

(2)下降的幅度有多少?

(3)在这个下降幅度下,我们是否可以认为B版本比A版本更优秀?

前两个问题很好解决,统计推断的关键就在于第三个问题,即给出B版本比A版本更优秀的结论的可信度到底有多大。

要解决这个问题,需要引入统计分布的概念。


  • 5.2.1  统计分布是一切推断的基础


任何事情的发生都遵从一定的规律,这种规律可以称为概率分布。或者说,事情的结果有多种(确定性事件结果就是一种,概率为1),每种结果出现的可能性都是存在的,且有具体的数字可以衡量,那么一件事情所有的结果和这些结果对应的可能性就是概率分布。

举个比抛硬币复杂点的例子。假设作为川术软件公司的CEO,你将“用户未来会怎么样?”这件事的结果拆成了如图5-5所示的流失、使用下降、使用持平、使用增加、付费这5种情况,然后观察现有的用户数据,计算出了出现这5种结果的人数占比,作为对未来的概率估计。那么,这样一张图实质上就是“用户未来行为”这个事件的概率分布。需要注意的是,概率分布中,结果必须是穷尽且相互独立的,遵循第4章提到的MECE准则。有多种结果可以选择的事件,在概念上会称为随机事件。若随机事件能出现的结果数量是有限的,那么各种结果及其对应的概率,会称为离散的概率分布。若随机事件出现的结果是无穷的且不能划分出明确的间隔,会称为连续的概率分布。在学术上,讨论连续型的情况比较多,而在本书中,就全当结果是离散出现的,这样更贴合实际。

图5-5  概率分布含义举例

经过统计学家的努力,这世界上的所有事情,其结果都遵从相对有限的几个概率分布,认识到这一点很重要。当然,我们并没有发现自然界中所有的概率分布,但在工作场景中,这样的概率分布非常明显,例如本书中曾提到过的“频率分布图”实际上就是概率分布的体现。

图5-6所示为8种形状的曲线,即8种主流的概率密度函数对应的曲线。在本书中,你没有必要在意“概率密度函数”这个概念,只要理解这些曲线就是表达随机事件的某种结果(落在横坐标轴上的具体某一点)对应的发生概率就可以了。事实上,作者并不打算详细讲解每种分布的特征和适用情况,仅仅只是展示。为什么呢?因为一条名为“林德贝格—勒维中心极限定理”的原理,让我们在多个随机变量求和的场景中(例如计算均值),可以用正态分布逼近每一种分布。中心极限定理可以简单表达为如下。

设(X1,X2,X3,…,Xn)是n个随机变量的组合,其中每个随机变量Xi都相互独立,分布相同,且方差是存在的,不管原来的分布是什么,只要n充分大,那么这一组随机变量求和的结果就能用正态分布进行描述。

图5-6  8种常见的概率分布

以上是将数学公式翻译成文字的说法,如果还没有理解,那么就用一种非常不严谨的方式来举例。从一个不知道什么分布的总体中抽样,为了获得均值,只要抽的次数足够多且保证随机性和独立性,那么每次获得的样本中得出的均值就会服从正态分布。例如,一批灯泡的使用寿命其实近似于possion分布,为了估计这批灯泡的平均寿命,我们从这批灯泡中不断抽样,当抽样次数足够多时,由每个样本测量得出的灯泡的平均寿命会近似服从正态分布。有了这个依据,我们就能依据正态分布的特性估计获得信息的准确程度。

说了这么多分布的内容,它与假设检验到底是什么关系呢?简单的说,就是将检验的结果定位到概率分布图的横坐标上,依据分布图告诉我们的概率做出是否拒绝原假设的判断。


  • 5.2.2  以正态分布为例,阐述假设检验的过程 


沿用A/B测试的例子阐述假设检验的过程。图5-7所示为假设检验的一般步骤。现在,我们需要判断B版本是不是比A版本的跳出率低。这个问题的必要性已经不必多言,那么就要提出原假设。有了原假设,与原假设互斥的假设就是备择假设。一般来说,我们要把一个不容易被推翻(或者不愿意被推翻)的假设当作原假设。这是研究的谨慎性原则所决定的。一旦原假设被推翻,意味着新的投入和风险。

图5-7  假设检验的一般过程

遵循谨慎性原则,将原假设设为:B版本的跳出率不比A版本的低。换句话说,就是B版本的跳出率大于或等于A版本的跳出率。那么备择假设自然就是:B版本的跳出率低于A版本。

第二步,以什么指标衡量两个版本的差别呢?为了汇集充分多的信息,要测试一段时间B版本(比如30天)的跳出率均值,减去同时期A版本的跳出率均值,获得的差值,记为Δ,将其作为判断的依据。计算出Δ后,需要知道Δ的分布才能进行判断。得益于现在的大数据,抽样变得非常便捷,从A这个历史版本过去的数据中,不断以30天为样本大小抽样,计算样本之间的平均跳出率的差值,就能描绘出Δ的分布。根据中心极限定理,当抽样次数多了后,这个分布会极其近似于正态分布。

如图5-8所示,我们衡量出Δ是一个均值为5%,标准差为1.5%的正态分布。有了这个图,好比有了一个衡量的标尺。图中深色区域的总面积和为1,即所有跳出率差值的可能性之和。虚线将这个面积划分为两部分,一部分对应的面积为5%,另一部分对应的面积为95%。虚线对应的横坐标值为8%,即均值5%加上两倍的标准差。这有什么深意呢?浅色部分对应的Δ的取值,即能够拒绝原假设的证据,称为拒绝域。


图5-8  单侧检验样例

拒绝域是什么?先回头思考拒绝原假设的逻辑依据是什么。说起来其实很简单,拒绝还是接受原假设,取决于我们认为在原假设成立的前提下,实验所得出的结论对应的概率为多小时是不正常的。一旦我们认为,在原假设成立的前提下,某个实验结果出现是很不正常的,那么就会反过来认为原假设不可靠,因此拒绝原假设。这个作为判断依据的概率阈值被称为显著性水平,一般取值为5%,它代表了判断的精确程度。对假设检验的严谨性要求越高(越不希望拒绝原假设),显著性水平取值越低,在现实中1%、0.1%都是较为普遍的。

我们计算了B版本的跳出率均值为43%,A版本的跳出率均值为51%,两者的差值Δ为9%,9%处在拒绝域内。因此,需要拒绝“B版本的跳出率不比A版本低”这个原假设,转而相信“B版本的跳出率低于A版本”这个备择假设。这个判断有另一种表述方式:在原假设(B版本的跳出率不比A版本低)成立的前提下,B版本的跳出率比A版本低9%的概率仅为3.8%,小于5%。我们认为在一次实验中,这么小的概率发生是不合理的,因此拒绝原假设,认为B版本的跳出率比A版本低。


  • 5.2.3  双侧检验与单侧检验


上讨论的假设检验的例子,原假设为“B版本的跳出率不比A版本低”,即“B≥A?”。这样的原假设是有方向性的,即大于或者小于,这种假设被称为单侧检验。还有一种在实际情况中常见的假设是双向性的,即原假设是“B=A?”,其备择假设就是“B≠A”,称为双侧检验。

双侧检验与单侧检验的过程大同小异,只是在拒绝域的建立上有所区别。如图5-9所示,双侧检验的拒绝域分布在检验统计量概率分布图的两侧。


图5-9  双侧检验样例

为什么要提双侧检验呢?因为在实际业务中,很多事情是没有好坏的,只有是否相同。相同的事情就用一个套路应对,不同的事情就用不同的套路应对。举个不那么恰当的例子,假设一个新的香烟品牌要做一个市场调研,目标设定为抽烟量比较正常的烟民。我们通过大量的数据收集,定义抽烟量正常的人,其每天抽烟支数是服从均值为25,标准差为8的正态分布。有A这位烟民,我们想知道他适不适合成为调查人群,即是不是抽烟量合理的人。那么,原假设便是“A抽烟量等于正常烟民的抽烟量”,备择假设是“A的抽烟量不等于正常烟民的抽烟量”。检验统计量是每天抽烟的支数,我们以N表示。那么原假设实际上就是“NA=25”。我们计算出NA =42,那么我们有充足的理由拒绝原假设,即A不是正常烟民(抽烟量太多),因为若A属于正常的烟民,那么他的日抽烟支数等于或者大于42的概率非常小。若我们计算的NA=8,我们也拒绝原假设,认为A不是正常烟民(抽烟量太少)。不是正常的烟民,自然就不能成为调查目标。通过上面的例子,读者应该能体会到双侧检验与单侧检验的不同。


  • 5.2.4  假设检验的细节补充 


上文中对假设检验的描述是有许多漏洞的,但为了非统计学背景的读者能够理解,在严谨性上做了一些牺牲。但在假设检验内容的最后,有必要强调一些细节,以免读者把假设检验方法用偏。

  • 1.分清标准差与标准误差这两个概念

标准差是从一个数据序列中直接计算得出的,衡量了每个数据点与均值之间的距离情况,具体来说是计算了每个数据点与均值的差值的平方和,再对这个平方和开根号。而标准误差是指从一个序列(总体)中不断地以相同的规模抽样,每个样本的均值与总体均值间的标准差。假设一个序列的标准差为σ,那么从这个序列中以n为抽样规模,抽出的多个样本的标准误差为σ除以根号n。假设检验,其核心思维逻辑是基于抽样的,因此,检验指标的分布取决于抽样的标准误差,而不是原数据的标准差。

  • 2.假设检验的检验指标和其对应的分布并不是局限的

事实上,在A/B测试的例子中,最合理的检验指标应该是由B版本的均值,减去历史版本(A版本)的均值,除以A版本的标准偏差后,得出的一个属于标准正态分布的检验统计量μ,然后基于显著性水平确定在标准正态分布中对应的μ׳,对比μμ׳的数值大小,来确定是否拒绝原假设。当历史版本的标准偏差不可知时(我们不能实现针对这个总体的多次抽样进而形成分布并了解标准偏差),只能用B版本的标准差s除以根号nn为B版本收集到的数据数量,即样本数)来代替A版本的标准偏差。这时,检验统计量μ不再服从标准正态分布,而是服从T分布。那么之后的显著性水平和拒绝域都是基于T分布来确定的。

假设检验所使用的指标和指标所对应的分布实际上是非常广泛的。不同的人,研究同样的问题,所设计的检验指标和分布都可以不相同。因此,我们的思维不能局限于均值的对比和正态分布。

  • 3.大数据不能替代统计推断,也不能替代假设检验

由于“大数据”概念的流行,有些人在鼓吹一种“推断统计无用论”。这些人一般会有这样的说辞:“大数据使得数据分析不再需要抽样,因为可获取的数据很全面,可以基于总体提取信息。而大部分推断统计学原理都是基于抽样的,因此推断统计学会失去作用。”作者并不认可这样的观念。

就算数据量再大再全面,基于数据信息做出推断,进而做出决策,这条基本逻辑是不会变的。这与抽样与否事实上毫无关系。换个角度,统计分布实际上揭示了自然界中的固有规律,例如,人身高的分布就是正态的,哪怕统计全世界所有人的身高,也是正态分布,与抽样与否无关。

那么,抽样就真的会消失吗?作者认为不会。既然大数定律决定了抽样的可靠性,在时间、金钱、运算能力等资源有限的前提下,抽样依然会是一种高效的方式。

  • 4.关注两类错误

既然假设检验的结果是进行接受还是拒绝的判断,那么我们的判断很自然地就会犯两类错误:拒绝了该接受的(第一类错误);接受了该拒绝的(第二类错误)。这两种错误的关系非常微妙,随着显著性水平而变化。若显著性水平取值很小,即要拒绝原假设的难度很大,那么犯第二类错误的概率就会变高,即接受了该拒绝的。若显著性水平取值很大,则很容易犯第一类错误,即拒绝了该接受的。因此,如何拿捏显著性水平是个学问。有这样一个原则:在适当控制第一类错误的前提下制约第二类错误。

倘若读者没看懂以上假设检验的内容也不必慌张。希望大家能够吸收“先假设,后验证”这样的分析思路。说得具体一点就是:先针对某个业务问题建立一个原假设,然后努力收集信息去挑战它,如果没有充分的证据证明原假设错误,那么就选择接受它。

假设检验是所有推断统计方法的基础设施之一。在后续我们将介绍的方差分析、相关分析、回归分析等方法中,都会看到假设检验的影子,若没有假设检验的结果作为支撑,分析结论是无效的。


点击下方“阅读原文”可前往京东购买本书!