![](http://mmbiz.qpic.cn/mmbiz_jpg/YJotEuBMe46SiamXnMiaicaHJSWvXVC7s5z5zUzFASVTotO7IMngD5Mu0B9jkwbgPicfdEyHS5ZeQHXJZQSmISHmRA/640?wx_fmt=jpeg)
【案例1】第二次世界大战中德军坦克数
在第二次世界大战前期,德军的坦克占尽上风。出于战略目的,盟军非常想知道德军坦克的总的生产数量。有很多盟军间谍的重要任务就是窃取德军坦克的总量的具体情报。然而,真正可靠的情报并非来源于间谍,而是来自盟军的统计学家。
那么,统计学家究竟做了什么事呢?
德国人非常严谨、尊重规则,甚至有些墨守成规。他们的坦克也按照出厂的先后顺序被依次编号为:1,2,…,N。在战斗中,盟军缴获了一些德军坦克(假设为n辆),并辨认出这些编号。统计学家就是要利用缴获的这些编号(样本)来估计N(总体),也就是德军坦克的总生产数量。统计学家研究了几套点估计的方案,其中一种是这样的:用样本中的最大编号减去1再乘以因子(1+1/n)。
首先,德军生产的坦克总数必定大于或等于缴获坦克的最大编号。假如他们缴获10辆坦克,其中最大的编号是100,那么坦克总数的点估计是100*(1+1/10)-1=109。
根据统计学家的公式得出这样的结论:在1940年6月到1942年9月期间,德军每月制造约246辆坦克。而盟军最初通过间谍、解码和逼供等传统手段收集信息却高得多,1400辆!战争结束后,盟军拿到德军坦克生产的报表,数据显示他们每月生产245辆坦克。
在这个案例中,盟军统计学家要估计的总体参数就是德军一共生产的坦克数目。盟军无法观测这个总体,只能通过抽取的样本,也就是缴获的坦克的编号来完成这种推断。
【案例2】首家新鲜咖啡速递服务企业
“无论烈日炎炎,还是寒风凛冽,连小哥都能将新鲜的咖啡送到您面前。”
这是国内首家专业的新鲜咖啡速递服务企业对顾客的承诺。这家企业的名字恰恰是由航班管家创始人、国内知名天使投资人王江的外号“连长”来命名的。
王江毕业于清华大学,也是一位成功的创业者和投资人。在一次偶然的机会,笔者在清华听了一场关于创业的讲座。在演讲的众多嘉宾中,笔者唯独对王江印象最深刻。这不仅是因为他身上充满活力的特质,更因为他把创业当作一件有意思的事情在做。他跟我们分享了“连咖啡”的故事。
有一天,他在某写字楼附近的星巴克喝咖啡,他意外的发现很多客人都是将咖啡带走而不是坐在店里喝。敏锐的他发现其中的商机:是不是可以专门做一个咖啡外卖?为了定量地验证他的猜想,更好地摸清楚市场规律,他到了北京不同地段的5家客流量最大的星巴克蹲点。他在每家咖啡店一坐就是一天,详细记录客人购买咖啡的情况。经过近1个月的调研,他发现三分之一以上的客人会选择把咖啡带走喝。于是,基于这种科学的调查所显示的结论,他大胆推测咖啡外卖有有很大市场,并果断成立了“连咖啡”这样一个专门做咖啡速递的服务企业。
案例中,王江在进行市场的商业调研时,其实不知不觉中应用了统计学点估计的思想。总体参数是这个城市的所有咖啡店外带咖啡的比例,用随机抽取的店铺中相对应的比例来估计,从而得出可以支持其决策的科学依据。
【知识点1】样本统计量和总体参数
由案例1和案例2可知,无论是第二次世界大战中德军所生产的坦克数量,还是北京市咖啡店中外带咖啡的比例,都是所要研究总体参数,而这个推断的过程中用到的是样本统计量。
样本统计量(Sample Statistic)是关于样本的一个已知函数,用于收集样本中能够反映总体的信息。它是从样本数据中计算出来的,只依赖于样本。在总体中,与之相对应的量叫总体参数(population parameter),是未知的。几个总体参数和样本统计量对应的例子如下。
![](http://mmbiz.qpic.cn/mmbiz_png/YJotEuBMe46SiamXnMiaicaHJSWvXVC7s5zNxmJ5gDkIiclibJT91EcialFTBh4DLnthrGINa9VqZXYibd2lmFLyoGCGg/640?wx_fmt=png)
【知识点2】点估计
案例2中“连咖啡”的创始人连长选取5个具有代表性的店铺作为随机样本来推测总体,即用5个店铺计算出的咖啡外带的比例的值来估计总体中的这个比例。
点估计(PointEstimation)是由样本数据计算出来的,能够代表总体的未知参数或者的函数。它通常被称作“参数的点估计”。
样本统计量是样本数据的函数。函数可以被理解为方程,通过这个方程浓缩了样本中所有数据的信息。比如,样本是100个学生的成绩,样本统计量是这100个学生的成绩均值。均值是由100个样本观测值通过均值公式计算得到的,它只是一个值而已。样本均值浓缩了样本的信息,但所含的信息量却不如100个观测值那样多和具体。但是,我们又离不开像均值这样的统计量,因为我们不可能随时随地打开一个Excel表格去查看那些冗长而杂乱的原始样本数据。
点估计是参数估计的重要组成部分。点估计的常见方法有矩估计和极大似然估计,而德军坦克的例子中用的是最小方差无偏估计。
衡量一个点估计量的好坏有很多标准,其中比较常见的标准有无偏性、有效性和一致性。
由于抽样具有随机性,所以每次抽取的样本一般不会相同,由样本求的点估计的值也不尽相同。因此,要确定一个点估计的好坏,单凭某一次抽取的样本是不具有说服力的,必须通过很多很多次抽取的样本来衡量。因此,一个自然而然的衡量标准就是,在大量重复的抽样中所得到的点估计值平均起来应该和总体参数一样。更正式一点的说法是,点估计的期望值应该等于总体参数的值。这就是无偏性。
有效性是指同一总体参数,如果有两个无偏估计量,那么其中标准差更小的估计量更有效。