专栏名称: 马同学图解数学
看图学数学!可能是中国最好的高等数学的基础概念讲解,深入浅出、形象生动。没有高深的数学符号,只有你能懂的数学内容。
目录
相关文章推荐
超级数学建模  ·  3分钟,1000年,看古建惊艳! ·  3 天前  
超级数学建模  ·  阿姨让我辞职跟她一起住,可是我... ·  3 天前  
超级数学建模  ·  限时领 | ... ·  4 天前  
51好读  ›  专栏  ›  马同学图解数学

如何通俗地理解协方差和相关系数?

马同学图解数学  · 公众号  · 数学  · 2019-06-25 09:39

正文

1 正相关与负相关

1.1 相关性


事物之间可能会有关系,这可以通过数据看出。比如要买房的人越多(下图的城镇化率可以简单理解为进城买房的人数),房价就越高,两者的关系称为 正相关

城镇化有另外一个反作用,降低出生率。城镇化和出生率之间的关系就是 负相关 ,也就是说城镇化率越高、出生率会越低,所以说,“城镇化是最好的避孕药”:



1.2 股票组合


在现实生活中了解相关性是很有用处的,比如下面有三支股票,年度收益都是 10%



可以看到蓝色、绿色这两只股票走势基本一致,也就是这两者正相关;而蓝色、红色走势相反,蓝色上涨的时候红色下跌,也就是这两者负相关。基金经理会倾向于把负相关的两支股票做成一个组合,这样收益率也还是 10% ,但是整个组合波动会很小,整体看上去平稳上升。


这种相关性可以通过下面要介绍的 协方差 相关系数 来表示和计算。


2 矩形的面积

2.1 颜色


假设有两个随机变量,身高 和体重 ,很显然这两者应该是正相关

,也就是说身高增加体重也会随着增加。


但是怎么通过数学来表达呢?我们来看一个例子,下面是某班同学的身高体重:


这两个随机变量可以构成二维平面上的点 ,可以把它们画在直角坐标系上。 我们先画出表中的前两个点:



很显然,相对于第一个点 (152,45) 而言,第二个点 (160,54) 横坐标增加了,同时纵坐标也增加了;也就是说第二个点代表的同学,身高增加了的同时体重也增加了,这两个点是正相关的,我们在两者之间画一个红色的矩形表示这两者是正相关的关系:



现在加入第三个点 (172,44) ,这位同学可能比较瘦高,他和第一、第二位同学负相关,用蓝色的矩形来表示:



接着增加第四个点 (175,64) ,它和前面三个点都是正相关;最后增加第五个点 (180,80) ,它和去前面四个点全是正相关。所以这些矩形全是红色的:



画完之后整体看上去是红色的,这说明 这两个随机变量整体上是正相关的关系,虽然其中间杂着两个蓝色的矩形。


2.2 面积


从图形上可以看出红色有优势,说明是正相关。下面来看看如何通过代数计算出这个结果。从第一个红色矩形开始:



可以算出这个红色矩形的面积为正:



而某个蓝色矩形:



它的“面积”为负:



所以把所有的矩形的“面积”加起来,如果为正那么说明就是红色矩形占优势,也就是正相关;反之则是负相关;为0的话说明哪个都不占优势,则是不相关。就这里的具体问题而言,很显然红色更占优势,所以算出来为正(总共有 个矩形),是正相关。


2.3 一般化


如果有 个点的话,可以用:



来表示组成矩形的两个顶点,那么所有矩形的面积的和就可以表示为:



那么:



3 协方差

可以看出要计算面积还是挺麻烦的,数学家给出了一个简化的方案。


3.1 简化


按照刚才的计算方法,比如说某一个点 ,需要和所有的 配对,然后计算出得到的矩形的面积和。数学家就想用 的均值也就是期望 来代替所有的 ,以及用 的均值也就是期望 来代替所有的



这样之前的面积计算公式就从:



变为了:



如此,计算就被大大简化了。下面用这种方法重新算下刚才的例子。


3.2 具体的例子


首先以 为原点,构建一个直角坐标系坐标系,它会把平面分为4个象限:



容易知道,一、三象限的点和 正相关,而二、四象限的点和 负相关。所以在一、三象限中各选一个点,它们和 构成的矩形是红色的:



在第四个象限中有一个点,它和 构成的矩形是蓝色的:



把所有矩形都画出来的话(总共只有5个矩形,按照上节给出的算法总共需要画10个矩形,可见现有算法确实大大简化了,点越多简化的效果越好),可以看到还是红色占优,因此总体来看 依然是正相关的:



3.3 协方差


还要考虑一点,每个点的概率是不一样的,因此各个矩形的面积并非是平等的,或者说权重是不一样的,所以需要对面积和进行加权平均,也就是对面积和计算数学期望,这就得到了:

是一个二维随机变量,若 存在,则称此数学期望为 协方差 (Covariant),记作:


特别地有

很显然会有

  • 时, 正相关,即两者有同时增加或者减少的倾向

  • 时, 负相关,即两者有反向增加或者减少的倾向

  • 时, 不相关


4 相关系数

之前求出来的协方差是有单位的,比如身高 (单位: 厘米)与体重 (单位: 公斤)的协方差 的单位是: 厘米 · 公斤。


假如又有一个随机变量,同学的年龄 (单位:岁),它和体重的协方差 的单位为:岁 · 公斤。那么到底体重与身高更正相关,还是体重与岁数更正相关?,因为单位的原因导致我们没有办法进行比较,所以:

对于二维随机变量 ,各自的方差为:


则:



称为随机变量 相关系数

之前介绍过标准差是有单位的,比如刚才举的例子身高 (单位: 厘米)、体重 (单位: 公斤)以及年龄 (单位: 岁),相除之后:



单位就约掉了,变成没有单位的数了,就可以进行比较了。比如刚才提到的身高 ,体重 以及年龄 ,假如说根据数据算出来:



马上可以知道相对于年龄,身高与体重之间的正相关关系更强烈。


5 线性相关

“正相关”或者“负相关”实际指的是







请到「今天看啥」查看全文