专栏名称: 算法与数学之美
从生活中挖掘数学之美,在实践中体验算法之奇,魅力旅程,从此开始!
目录
相关文章推荐
超级数学建模  ·  有生之年,走完整个中国需要花费多少时间和金钱? ·  13 小时前  
超级数学建模  ·  张朝阳开课手推E=mc²,李永乐现场狂做笔记 ... ·  13 小时前  
算法与数学之美  ·  “她1年发表10篇论文” ... ·  昨天  
九章算法  ·  抽奖了!九章0元送上岸“全家桶”! ·  3 天前  
九章算法  ·  一年被裁两次,一个底层码农的大落大起 ·  4 天前  
51好读  ›  专栏  ›  算法与数学之美

投影和最小二乘

算法与数学之美  · 公众号  · 算法 数学  · 2016-09-14 22:47

正文

目前为止,我们已经知道要么有解要么无解,如果 不在列空间里,那么这个系统就是矛盾的,高斯消元法就会失败。当有几个方程和一个未知量时失败完全可以确定:

的比率是时,上面的方程组才可解,也就是说只有 和列在一条直线上时才会存在。

尽管他们无解,可是他们在实际中经常出现,他们必须有解!一种可能是用系统的一部分来确定,其余部分忽略;如果所有的个方程来源一样,这种方法就不合理。我们放弃这种一些方程没误差,而有些误差大的想法,我们考虑能最小化个方程平均误差值。

对平方和求平均是最方便的:

如果存在准确解,那么最小误差。大部分情况下,不成比例关系,的图像将是一个抛物线,最小误差在最低点的位置处,也就是导数等于零的位置:

求出的值,这个模型系统的最小二乘解用 来表示:

相信大家立马就认出分子中的和分母中的了吧(是不是像投影啊)。

推广到一般情况同样如此,求解就是最小化

求导并令其等于零,求出点

计算后得到

1.对于这样只有一个未知变量的问题,它的最小二乘解为:

大家可能看出来了,我们一直从几何角度解释最小二乘问题—— 最小化距离。令的导数等于零求出解,求得的结果和上篇文章的几何形式一样,连接 的误差向量一定垂直于

注意退化为的情况,这是的任何倍数都是零,线仅仅就是一个点,因此是唯一的投影候选结果。但是的形式变成一个无意义的数,这表明完全无法确定,所有值都给出相同的误差,所以是一条水平线而不是抛物线,伪逆给这种情况分配了一个确定的值,相比较其他值,这个是最好的选择的。 

最小二乘问题

现在我们开始难一点的问题,将投影到一个子空间上——而不是一条线上。这个问题来自于,其中矩阵,不再是一列和一个未知量,现在矩阵有多列, 的个数比未知量的个数要大,所以跟期望中的一样,依然是矛盾的。不可能存在完全拟合数据值,换句话说,向量不是列向量的组合;它在列空间的外面。

再次回到了找出来最小化误差的问题,这个最小化可以用最小二乘求解,误差是,这就是到列空间中的距离。我们要做的就是能最小化的最小二乘解,它和相等,而这个就是列空间中离最近的点。

我们可以用几何或计算来确定,在维空间中,我们偏爱几何; 一定是在列空间上的投影。误差向量一定可这个空间垂直(图1),找到和投影是最基本的,下面我们用两种方法来实现它:

图1

a. 所有垂直于列空间的向量位于左零空间里,因此误差向量一定在的零空间里:

 

b. 误差向量和的每列垂直:

 

这两种方法殊途同归,最后都是,而计算方法是通过计算的导数,并令其等于零得,最快的方式是方程两边乘以,所有这些等价方法都得到一个二次系数矩阵,它是对称的(它的转置可不是!)并且是接下来几篇文章中非常基础的矩阵。

方程在统计学中叫做正规方程。

2. 当是矛盾的时候,它的最小二乘解就是最小化

(1)

的列线性无关时,是可逆的!因此

(2)

在列空间上的投影就是最近点

(3)

我们举一个例子进行说明:

没有解,给出最佳解

每个列最后一个元素都是零,所以是三维空间中的平面,的投影是分量保持不变,但分量变成零,通过求解正规方程就能证实这个结果:

投影:

在这种特殊情况,最佳方式就是求解的前两个方程,得到,方程的误差是6。

注解:假设的列空间里,也就说存在列的组合使得,那么的投影依然是

最近的点就是本身。

注解:考虑一个极端的情况,假设与每列都垂直,那么,这种情况下的投影就是零向量:

注解:当是方阵且可逆时,列空间就是整个空间,每个向量的投影就是自身,

只有这一种情况我们可以将分离成,当是长方形矩阵时,就不能这么做。

注解:假设只有一列,也就是只包含,那么矩阵就是常数就是,回到了最初的形式。 

矩阵 

矩阵一定是对称的,因为它的转置,依然是。它的第() 个元素是的第列与第行的内积,重点是 的可逆性,幸运的是有相同的零空间。如果,那么零空间中的向量也在的零空间中。反过来考虑,假设,我们将它和进行内积操作来表明

两个零空间是相等的。如果有无关列(零空间中只有),那么同样如此:

13、如果有无关列,那么是方阵,对称并且可逆。

随后我们还会指出也是正定的(所有主元和特征值都是正的)。

到目前为止,这种情况是最常见也是最终要的,如果,那么维空间的无关性就很容易实现。

投影矩阵

我们已经说明了离的最近点是,这种形式用矩阵形式来表示就是构建列空间的垂线,产生的矩阵是一个投影矩阵,用 表示:

(4)

这个矩阵将任何向量投影到的列空间上,换句话说,在列空间上的分量,误差是正交补中的分量。(也是一个投影矩阵!它将投影到正交补上,投影是)

简单来说,有一种矩阵形式可以将分成两个互相垂直的分量,在列空间内,其他的分量在左零空间内——也就是与列空间正交的空间。

这些投影矩阵可以从代数和几何两个角度理解。

4、投影矩阵有两个性质:

a. 矩阵等于自身的平方:

b. 矩阵等于它的转置: 

反过来讲,任何对称矩阵,如果,那么它表示一种投影。

证明:很容易看出来为什么,我们先从任意向量开始,那么位于投影的子空间内,当我们再次投影的话不会发生任何变化,向量已经在子空间内,依然是,换句话说,两次或三次或五次投影得到的结果跟第一次一样:

为了证明是对称的,我们取它的转置:

反过来,我们可以从推断出列空间上的投影,误差向量与这个空间正交。对于该空间内的所有向量,内积是零:

因此和空间是正交的,是列空上的投影。

例1:假设是可逆的,如果它是矩阵,那么它的四列都是无关的,列空间就是整个。在整个空间上的投影是什么?答案就是单位矩阵。

(5)

单位矩阵是对称的,并且,误差向量等于零。 

拟合数据的最小二乘法

假设我们有一堆实验数据,并且期望输出是输入的线性函数,也就是看成直线,例如:

a. 我们测量不同时刻卫星距火星的距离,我们用表示时间,表示时间,不考虑失去动力或重力突然增强的情况下,卫星几乎以恒定的速度移动:

b. 我们在某个物体上放上不同的载荷,并测量它垂直方向产生的位移,我们用 表示载荷的重量,表示位移大小。除非载太重使得物体彻底变形,否则的话根据弹性理论,存在一个线性关系

c. 印制本书的成本似乎也是线性关系:,其中编辑和排版成本是,印刷和装订成本是是固定的,而每印制一本书成本多

如何计算呢?如果没有实验误差,那么两次测量的都会得到直线,但是如果有误差的话,我们就考虑平均值,求出最佳的直线。事实上,因为有两个未知量需要确定,于是我们需要投影到二维子空间上。而一般情况下,我们都是多次进行试验测量的:

(6)

得到的是矛盾方程组,有个方程却只有两个未知量,如果误差存在的话,它将不可解。我们写成矩阵形式:

(7)

最佳解就是最小化均方误差得到的

向量是最接近向量的,在所有的直线中,我们选出拟合数据最好的直线(图2),在图中,误差是到直线的竖直距离(不是垂直距离!),它对应的是竖直距离的平方,求和和最小化。

例2:在图2a中有三个测量值

注意不要求等距离。第一步是通过三个点的方程:

如果这些方程可解,那么表示没有误差。但是这些点不在一条直线上,所以他们不可解,因此需要用到最小二乘求解:

最佳解就是,最佳直线是

图2

注意这两幅图之间的联系,问题是一样的但是呈现的效果不一样。在图2b中,不是列的一个组合,而在图2a中,三个点不在一条线上。最小二乘用点代替了不在直线上的点!既然无法解,那我们就解

直线处的高度分别为,这些点都在之直线上,因此向量在列空间里,而这个向量就是投影。图2b展示的是三维空间效果(如果有个点就是维)而图2a 是二维空间的效果(如果有 个参数就是维)。

中减去得到误差,在图2a中就是竖直向量,他们是图2b中虚线向量的元素,这个误差向量与第一列正交,因为,跟第二列也正交,所以它与列空间正交,属于左零空间。

问题:如果测量结果就是误差,那么最佳直线和解是什么呢?答案是:零,也就是水平轴,,投影是零。

我们总结一下拟合直线的方法,的第一列包含1,第二列包含,因此包含的和:

5、给定点处的测量值,那么最小二乘求得到的直线为:

注解:最小二乘法不限于用直线拟合数据,在许多实验中关系不一定是线性的。假设我们有一些放射性材料,在不同时刻可以通过仪器读出放射量。现在我们知道这些材料是两种化学物质的混合物,还知道他们的半衰期(或衰减率),但是不知道每种的含量。如果我们用 表示这两个未知量,那么仪器的结果更像是两个指数之和(不是直线):

(8)

而实际测量中,仪器的结果存在误差,所以我们多测几次,分别在时刻测得,利用方程(8)近似满足:

如果记录的次数超过两次,那么我们可能无法求解,但是最小二乘原则将给出最佳解

知道了后情况就完全不同了,接下来我们就能算出衰减率。 这个问题就是非线性最小二乘,比线性的难一点。而我们依然是先写出,误差的平方和,然后最小化。但是导数为零得到的不再是线性方程。

加权最小二乘

一个简单的最小二乘问题是估计两个观测值,除非,否则我们面对的就是两个方程一个未知量的矛盾方程:

目前为止,我们认为可靠度一样,基于此我们最小化求出的值:

最佳解就是平均值,利用得到同样的结果。事实上,的矩阵,正规方程是

现在假设两个观测值的信任程度不一样,的结果比更加准确,但不管怎样,只要包含了信息,我们不会完全依赖,最简单的分解就是给他们分配不同的权值,最下化带权重的平方和:

如果,那么说明更加重要,最小化过程时会使变小的力度加大: (9)

结果不再是的平均值,而是数据的加权平均,这个平均相比更加靠近

一般最小二乘问题将变成新系统,这将结果变成了,矩阵出现在正规方程的两边:

的最小二乘解是

加权的正规方程

投影到的图像中发生了什么了?投影依然是列空间中最靠近的点,但是这里的最靠近有了新的意义,的加权长度等于 的长度,垂直也不再是,在新的方程组中是,中间出现了矩阵,在这个新观念下,投影和误差依然是垂直的。

接下里我们描述一下内积:他们来自于逆矩阵。他们只涉及对称组合的内积是。对于正交矩阵,当这个组合是时,这和我们之前介绍的内积是一个含义,这种情况下旋转空间不改变内积,而其他矩阵会改变长度和内积。

对任何可逆矩阵,这些规则定义了新的内积和长度:

(10)

因为是可逆的,所以没有任何向量会变成零(除了零向量),所有可能的内积(线性依赖于,并且在 时为正)可以从 中找到。

实际中,重要的问题是的选择,最好的答案来自统计学,最早是出自高斯。我们知道平均误差是零,这是中误差的期望值(误差并非一定为零!),我们还知道误差平方的均值,也就是方差。如果的误差互相独立,且方差为,那么正确的权值是,测量越精确(意味着更小的方差),权重越大。

除了不同的权重外,观测量也许是不独立的,如果误差是耦合的,那么将是非对角形式,最好的非偏置矩阵是协方差矩阵的逆(它的项是误差和误差乘积的期望),的主对角线包含方差,也就是误差平方的平均值。

例3:假设两个牌友(已经叫牌了)在猜对方手中黑桃的个数,误差为的概率都等于,那么期望误差是零,方差是

这两个人的猜测是相关的,因为叫牌是一样的,但是却不一样,这又是因为他们手中的牌不一样。如果说他们都猜大和都猜小的几率为零,相反误差的几率是,那么,协方差矩阵的逆是

这就是加权正规方程中间的矩阵。