专栏名称: 蔻享学术
传播科学、共享科学、服务科学
目录
相关文章推荐
51好读  ›  专栏  ›  蔻享学术

从线性算子的角度看广义逆矩阵

蔻享学术  · 公众号  ·  · 2025-04-12 00:00

正文

请到「今天看啥」查看全文







广义逆矩阵定义众多,计算繁杂,初学者很难理解其本质。虽然一般的教材都会提供规范的定义、标准的运算性质证明以及计算方法介绍,但这些内容往往“代数味”太浓,容易让人陷入具体计算过程,而欠缺对概念内涵和联系的直观把握。本文将从线性算子的角度出发,利用线性算子和矩阵的内在对应关系,解释广义逆矩阵的几何直观意义。


往期文章:

一、 矩阵乘法为什么是这样定义的?

二、 从反函数的观点看逆矩阵

撰文 | 朱慧 (玉林师范学院数学与统计学院副教授) 、丁玖 (美国南密西西比大学数学系教授)


我们在系列文章第二篇《 从反函数的观点看逆矩阵 》中已经证明,对于一个行数不等于列数的“非正方形”矩阵𝐴,不存在另一个矩阵𝐵,使得它们的乘积𝐴𝐵和𝐵𝐴都是单位矩阵 (当然两者阶数不一样) 。在本文中,我们将行数与列数不相等的矩阵称为“非方矩阵”;若更细分之,行数大于列数的非方矩阵也按其形状称为“高矩阵”,而列数大于行数的非方矩阵则被说成是“矮矩阵”。


将矩阵等价地看成线性算子,上面用矩阵乘法表达的性质如用线性算子的语言,就是说任何非方矩阵不能同时是一对一 (单射) 的和映上 (满射) 的。因此,非方矩阵没有经典的反函数意义下的逆矩阵。然而,如果正整数𝑚 < 𝑛,可以找到𝑚行𝑛列的矩阵𝐴和𝑛行𝑚列的矩阵𝐵,使得𝐴𝐵 = 𝐼 𝑚 ,然而这时𝐵𝐴 ≠ 𝐼 𝑛 。这里𝐼 𝑚 和𝐼 𝑛 分别是𝑚阶和𝑛阶的单位矩阵。例如,令


𝐴 = [1 2 3] 及 image.png


分别为一矮矩阵和一高矩阵,其中𝐵的上标“𝑇”是矩阵理论中表示转置的标准记号,即一个矩阵𝑀之转置矩阵𝑀 𝑇 的(𝑖, 𝑗)-元素是𝑀的(𝑗, 𝑖)-元素,则𝐴𝐵 = 𝐼 1 = 1,但𝐵𝐴 ≠ 𝐼 3


更进一步,从之前文章我们也已知道,任何矮矩阵𝐴不可能是个单射,即它不可能总是将不同的向量映射到不同的向量,故不存在高矩阵𝐵满足𝐵𝐴 = 𝐼。类似地,任何高矩阵𝐴不可能是个满射,即它的值域是欧几里得空间𝑅 𝑚 的真子空间,其中𝑚是𝐴的行数,故不存在矮矩阵𝐵满足𝐴𝐵 = 𝐼。然而,上面的例子说明,对于某些矮矩阵𝐴,存在高矩阵𝐵满足等式𝐴𝐵 = 𝐼,同样,对于某些高矩阵𝐴,存在矮矩阵𝐵使得𝐵𝐴 = 𝐼。这里的符号𝐼表示它是某阶的单位矩阵。


既然非方矩阵没有经典意义上的逆矩阵,难道就不能拓宽“逆”的含义,抓住它的核心要素,定义更广意义下的逆?逆矩阵的定义是可逆函数的反函数概念应用到矩阵这个特殊函数的结果,而反函数的定义是基于可逆函数𝑓: 𝑋 → 𝑌在定义域𝑋上是“一对一”和“映到𝑌上”这两个根本性质的。因此,要推广“逆”的含义,就必须放宽对于“一对一”和“映上”的苛刻要求。


必须注意,以上所述并非暗示方阵必定有逆矩阵。事实上我们之前的文章已证,方阵只要是个单射或满射,则分别同时也是满射或单射,因而逆矩阵存在并唯一。只有那些既非单射又非满射的方阵才与逆矩阵无缘。


这样,我们的问题是:对于非方矩阵或无逆可言的方阵,怎样定义“广义逆矩阵”?我们将再次采用几何的算子语言以完成任务。首先,我们引入本文所需的预备知识。


空间的直和分解



第一需要的预备知识是 空间的直和分解 。这里的空间特指常用的 𝑛 维欧几里得空间 𝑅 𝑛 ,它是由所有 𝑛 维向量 𝑥 = (𝑥 1 , … , 𝑥 𝑛 ) 所组成的一个线性空间,其中 𝑥 的每个分量 𝑥 𝑖 为任意实数。单位坐标向量 𝑒 1 , 𝑒 2 , … , 𝑒 𝑛 构成 𝑅 𝑛 的标准基底,其中对 𝑖 = 1,2, … , 𝑛 𝑒 𝑖 的第 𝑖 个分量为 1 ,其余的分量为 0 。在这个基底下,每个 𝑛 维向量 𝑥 = (𝑥 1 , … , 𝑥 𝑛 ) 都可表示成基底向量的线性组合,其组合系数恰好就是它的分量 𝑥 1 , … , 𝑥 𝑛 。换言之,

𝑥 = 𝑥 1 𝑒 1 + 𝑥 2 𝑒 2 + ⋯ + 𝑥 𝑛 𝑒 𝑛


我们大致描述一下一般线性空间的概念,它是上述欧几里得空间的抽象化。任给一个非空集合𝑉,如果对其中的任两个元素𝑢和𝑣,它们的“和”𝑢 + 𝑣作为𝑉中的一个元素有定义,此外任一实数𝜉和𝑣的“标量积”𝜉𝑣也定义为𝑉中的一个元素,并且这两种代数运算满足同欧几里得空间中向量加法、数乘向量运算一样的基本法则,如𝑉关于加法构成一个“群”,特别地,加法满足结合律和交换律、数乘满足分配律等,则称𝑉为一线性空间,其中的元素被叫做向量。除了几何直观性最强的欧几里得空间𝑅 𝑛 被认为是抽象线性空间的“杰出代表”和“具体模型”外,中学生最熟悉的一例线性空间是所有次数不高于某个固定非负整数的实系数多项式全体所组成的集合,其中的元素加法和数乘运算就自然地由多项式的加法和数乘多项式来定义。


如果一个线性空间𝑉中的𝑛个向量𝑣 1 , 𝑣 2 , … , 𝑣 𝑛 满足两个性质:

(1)它们是线性无关的,即线性组合𝜉 1 𝑣 1 + 𝜉 2 𝑣 2 + ⋯ + 𝜉 𝑛 𝑣 𝑛 等于零向量推出所有系数𝜉 1 , 𝜉 2 , … , 𝜉 𝑛 全为零;

(2)任给𝑉中向量𝑣,它都可写成𝑣 1 , 𝑣 2 , … , 𝑣 𝑛 的一个线性组合,即存在系数𝜉 1 ,𝜉 2 , … , 𝜉 𝑛 使得𝑣 = 𝜉 1 𝑣 1 + 𝜉 2 𝑣 2 + ⋯ + 𝜉 𝑛 𝑣 𝑛


则称𝑣 1 , 𝑣 2 , … , 𝑣 𝑛 组成𝑉的一个基底,并说𝑉是有限维的。虽然有限维线性空间有无穷多个基底,但基底中的向量个数𝑛不依赖于基底的选取,故𝑛是唯一确定的,称为该线性空间的维数。比如说,所有次数不大于𝑛 − 1的多项式所组成的线性空间𝑃 𝑛−1 的维数是𝑛,单项式1, 𝑥, 𝑥 2 , … , 𝑥 𝑛−1 构成了𝑃 𝑛−1 的一个标准基底。


线性空间𝑉的一个子集如果在𝑉的加法和数乘运算下也是个线性空间,则称它为𝑉的一个线性子空间。显然,线性子空间的维数不大于母线性空间的维数。我们假设读者熟悉线性代数中如下的命题:线性空间中𝑘个线性无关的向量张成一个𝑘维子空间,它是这𝑘个向量所有的线性组合构成的集合;有限维线性空间𝑉中的任意𝑘个线性无关的向量可以扩充为𝑉的一个基底,更详细地说,设𝑣 1 , 𝑣 2 , … , 𝑣 𝑘 是𝑛维线性空间𝑉中的一组线性无关的向量,则存在向量𝑣 𝑘+1 , 𝑣 𝑘+2 , … , 𝑣 𝑛 ,使得𝑣 1 , … , 𝑣 𝑘 , 𝑣 𝑘+1 , … , 𝑣 𝑛 组成𝑉的一个基底。


设𝑉是𝑅 𝑛 的一个𝑘维子空间,令𝑣 1 , 𝑣 2 , … , 𝑣 𝑘 构成𝑉的一个基底。在𝑅 𝑛 中选取𝑛 − 𝑘个向量𝑣 𝑘+1 , 𝑣 𝑘+2 , … , 𝑣 𝑛 ,使得𝑣 1 , … , 𝑣 𝑘 , 𝑣 𝑘+1 , … , 𝑣 𝑛 组成𝑅 𝑛 的一个基底。向量𝑣 𝑘+1 , 𝑣 𝑘+2 , … , 𝑣 𝑛 张成一个𝑛 − 𝑘维子空间,记为𝑉 𝑐 ,称为𝑉在𝑅 𝑛 中的一个补空间。这时,𝑅 𝑛 中的所有向量𝑥都可以唯一写成


𝜉 1 𝑣 1 + ⋯ + 𝜉 𝑘 𝑣 𝑘 + 𝜉 𝑘+1 𝑣 𝑘+1 + ⋯ + 𝜉 𝑛 𝑣 𝑛


令𝑦 = 𝜉 1 𝑣 1 + ⋯ + 𝜉 𝑘 𝑣 𝑘 及𝑧 = 𝜉 𝑘+1 𝑣 𝑘+1 + ⋯ + 𝜉 𝑛 𝑣 𝑛 ,则𝑦 ∈ 𝑉和𝑧 ∈ 𝑉 𝑐 ,故𝑥 = 𝑦 + 𝑧,且表达唯一。这样,𝑅 𝑛 中任何向量𝑥都可以唯一分解成𝑉中的一个向量𝑦和𝑉 𝑐 中的一个向量𝑧之和,因而有所谓的直和分解𝑅 𝑛 = 𝑉 ⊕ 𝑉 𝑐 。如此,我们有了一个 基本引 理:


引理 1. 设𝑉为欧几里得空间𝑅 𝑛 的一个𝑘维子空间,则存在𝑅 𝑛 的一个𝑛 − 𝑘维子空间𝑉 𝑐 满足


𝑅 𝑛 = 𝑉 ⊕ 𝑉 𝑐


即零向量是𝑉和𝑉 𝑐 的唯一共同元素,且𝑅 𝑛 中每一个向量都是𝑉中一向量和𝑉 𝑐 中一向量之和。


如果 𝑘 < 𝑛 ,则由于有无穷多个向量组 𝑣 𝑘+1 , 𝑣 𝑘+2 , … , 𝑣 𝑛 可以同给定的线性无关向量组 𝑣 1 , … , 𝑣 𝑘 放在一起构成 𝑅 𝑛 的一个基底,所以子空间 𝑉 𝑅 𝑛 中有无穷多个补空间。例如,令 𝑉 𝑥𝑦− 坐标平面 𝑅 2 上的一维直线 𝑦 = 2𝑥 ,取 𝑉 𝑐 为该平面上斜率 𝜉 不等于 2 的任何直线 𝑦 =𝜉𝑥 ,则该平面是这两条直线的直和。


定义广义逆矩阵



令𝐴为一固定的𝑚行𝑛列矩阵,它也定义了一个有限维线性算子𝐴: 𝑅 𝑛 → 𝑅 𝑚 ,把𝑅 𝑛 中的向量𝑥映射到𝑅 𝑚 中的向量𝑦 = 𝐴𝑥,其中𝑥写成列向量以便𝐴能左乘它。这里为表达简便起见,我们对𝐴不加区别地既称矩阵亦称算子。所有𝑚维向量𝐴𝑥的全体构成的集合是𝑅 𝑚 的一个线性子空间,叫做𝐴的值空间,记为𝑅(𝐴)。定义域𝑅 𝑛 中被𝐴映射到𝑅 𝑚 中零向量的向量全体构成𝑅 𝑛 的一个线性子空间,称为𝐴的零空间,符号是𝑁(𝐴)。在有些教科书中,𝐴的零空间也写成ker(𝐴),其中“ker”是英文单词kernel (核) 的前三个字母。


根据上述引理 1 ,零空间𝑁(𝐴)在𝑅 𝑛 中有个补空间𝑁(𝐴) 𝑐 ,值空间𝑅(𝐴)在𝑅 𝑚 中有个补空间𝑅(𝐴) 𝑐 。故𝑅 𝑛 和𝑅 𝑚 分别有直和分解:


𝑅 𝑛 = 𝑁(𝐴) ⊕ 𝑁(𝐴) 𝑐 , 𝑅 𝑚 = 𝑅(𝐴) ⊕ 𝑅(𝐴) 𝑐 。 (1)


为了定义 𝐴 : 𝑅 𝑛 𝑅 𝑚 与上述分解相对应的一个广义逆矩阵 𝐴 +: 𝑅 𝑚 𝑅 𝑛 ,我们需要将下文有关键性用途的一个事实写成引理形式:


引理 2. 线性算子𝐴: 𝑁(𝐴) 𝑐 → 𝑅(𝐴)是一对一的和映上的。


证明 . 因为𝑅 𝑛 = 𝑁(𝐴) ⊕ 𝑁(𝐴) 𝑐 ,矩阵𝐴将𝑁(𝐴) 𝑐 映射到𝑅(𝐴)之上,故引理 2 中定义的算子𝐴是个满射。现在证明它同时也是一个单射。设𝐴𝑥 = 𝐴𝑦,其中𝑥 ∈ 𝑁(𝐴) 𝑐 及𝑦 ∈ 𝑁(𝐴) 𝑐 ,则𝐴(𝑥 − 𝑦) = 𝐴𝑥 − 𝐴𝑦 = 0,故𝑥 − 𝑦 ∈ 𝑁(𝐴)。又因为𝑁(𝐴) 𝑐 是线性空间,所以𝑥 − 𝑦 ∈𝑁(𝐴) 𝑐 ,从而根据𝑁(𝐴)与𝑁(𝐴) 𝑐 只有零向量为它们的共同元素这一事实知,𝑥 − 𝑦 = 0,即𝑥 = 𝑦。这证明𝐴限制在子空间𝑁(𝐴) 𝑐 上是一对一的。证毕。


为了看得更清楚,我们用𝐴 |𝑁(𝐴) 𝑐表示作为算子的矩阵𝐴在𝑁(𝐴) 𝑐 上的限制。 引理 2 说明,线性算子𝐴 |𝑁(𝐴) 𝑐在其值域𝑅(𝐴 |𝑁(𝐴) 𝑐) = 𝑅(𝐴)上有唯一的逆算子(𝐴 |𝑁(𝐴) 𝑐) -1 。然而, (𝐴 |𝑁(𝐴) 𝑐 ) -1 的定义域仅仅是𝑅(𝐴) ⊆ 𝑅 𝑚 ,而不一定是整个欧几里得空间𝑅 𝑚 ,除非原先的矩阵𝐴已经是个满射,即等式𝑅(𝐴) = 𝑅 𝑚 成立。


只要克服了上段最后一句话所表达的困难,我们就能引进广义逆矩阵了。为此目的,如下定义一个将𝑅 𝑚 映射到𝑅 𝑛 之内的线性算子:限制在𝑅(𝐴)上,它等于(𝐴 |𝑁(𝐴) 𝑐) −1 ,限制在𝑅(𝐴) 𝑐 上,它是一个零算子,再通过直和分解𝑅 𝑚 = 𝑅(𝐴) ⊕ 𝑅(𝐴) 𝑐 将它线性扩展到整个定义域𝑅 𝑚 上。


前一段的叙述虽然内容正确,逻辑严谨,但估计一些读者觉得语句太过精炼,似乎更适合数学成熟人士阅读。好吧,我们将矩阵看成线性算子,稍加点初等语言复述上一段的构造过程:对给定的矩阵 𝐴 : 𝑅 𝑛 𝑅 𝑚 ,分三步定义一个矩阵 𝐵 : 𝑅 𝑚 𝑅 𝑛 。第一步,当 𝑦 𝑅 ( 𝐴 ) 时,存在唯一的向量 𝑥 𝑁 ( 𝐴 ) 𝑐 使得 𝐴𝑥 = 𝐴 | 𝑁 ( 𝐴 ) 𝑐 𝑥 = 𝑦 ,则令 𝐵𝑦 = 𝑥 ;第二步,当 𝑦 𝑅 ( 𝐴 ) 𝑐 时,则令 𝐵𝑦 = 0 ;第三步,对任意的 𝑦 𝑅 𝑚 ,将它写成 𝑦 = 𝑧 + 𝑤 ,其中 𝑧 𝑅 ( 𝐴 ) 𝑤 𝑅 ( 𝐴 ) 𝑐 𝑦 唯一确定,则令 𝐵𝑦 = 𝐵𝑧 + 𝐵𝑤 = 𝐵𝑧 + 0 = 𝐵𝑧 。如此获得的算子 𝐵 : 𝑅 𝑚 𝑅 𝑛 显然是线性的,它唯一确定了我们所要寻找的矩阵 𝐵



如果读者对理解上面的构造还觉得困难,建议您拿出一张纸一支笔,在上面画上两对相交直线,其中一对分别代表𝑁(𝐴)和𝑁(𝐴) 𝑐 ,另一对分别代表𝑅(𝐴)和𝑅(𝐴) 𝑐 。在阅读上一段的过程中用铅笔在这几条直线间来回比划,帮助思考,或许您一下子就“恍然大悟”了。下面就是笔者为读者画出的一张示意图(其中把上一段中的矩阵𝐵直接写成𝐴 + ):


定义广义逆矩阵示意图


这样用算子语言定义出的矩阵𝐵称为矩阵𝐴对应于直和分解(1)的广义逆矩阵,写成𝐴 + : 𝑅 𝑚 → 𝑅 𝑛 ,与非奇异矩阵的逆矩阵符号𝐴 −1 相异。显然,当补空间𝑁(𝐴) 𝑐 和𝑅(𝐴) 𝑐 取定后,广义逆矩阵是唯一存在的。当这些补空间变化时,对应的广义逆矩阵也随之变化。然而,广义逆矩阵的一些基本性质和等式却不随补空间的变化而变化。


在讨论广义逆矩阵的性质前,我们先举一个例子。设



则零空间𝑁(𝐴) = {(𝑥, 𝑦): 𝑥 + 𝑦 = 0}是𝑥𝑦 −坐标平面上的次对角线,而值域𝑅(𝐴) ={(𝑥, 𝑥): 𝑥 ∈ 𝑅}是主对角线。现在取𝑁(𝐴) 𝑐 = {(𝑥, 0): 𝑥 ∈ 𝑅}为𝑥 −轴,𝑅(𝐴) 𝑐 = {(0, 𝑦): 𝑦 ∈𝑅}为𝑦 −轴,那么有直和分解𝑅 2 = 𝑁(𝐴) ⊕ 𝑁(𝐴) 𝑐 以及𝑅 2 = 𝑅(𝐴) ⊕ 𝑅(𝐴) 𝑐 。我们来找到对应于这两个直和分解的广义逆矩阵𝐴 +


因为原矩阵𝐴将𝑁(𝐴) 𝑐 = 𝑥 −轴上的向量(1, 0)映射到𝑅(𝐴) =主对角线上的向量



所以广义逆矩阵𝐴 + 将主对角线上的向量(1, 1)映射到𝑥 −轴上的向量(1, 0)。另一方面,由广义逆矩阵的定义,𝐴 + 将𝑦 −轴上的向量(0, 1)映射到零向量(0, 0)。令



则从条件



得线性方程组


𝑥 + 𝑦 = 1, 𝑧 + 𝑤 = 0, 𝑦 = 0, 𝑤 = 0,


其唯一解是𝑥 = 1, 𝑦 = 𝑧 = 𝑤 = 0。从而



简单计算可以验证:


𝑅(𝐴 + ) = {(𝑥, 0): 𝑥 ∈ 𝑅} = 𝑁(𝐴) 𝑐 及 𝑁(𝐴 + ) = {(0, 𝑦): 𝑦 ∈ 𝑅} = 𝑅(𝐴) 𝑐


更进一步,我们发现



事实上,这两个等式对任意 𝐴 的广义逆矩阵都成立,论证如下:根据广义逆矩阵的定义, 𝐴𝐴 + 作用在 𝑅 ( 𝐴 ) 上等同于恒等算子 𝐼 ,故有 𝐴𝐴 + 𝐴 = 𝐼𝐴 = 𝐴 ,即第一个等式成立。同理,由于 𝐴 + 𝐴 作用在 𝑅 ( 𝐴 + )= 𝑁 ( 𝐴 ) 𝑐 上也是恒等算子 𝐼 ,因此有 𝐴 + 𝐴𝐴 + = 𝐼𝐴 + = 𝐴 + ,即第二个等式为真。在等式 𝐴 + 𝐴𝐴 + = 𝐴 + 的两边左乘 𝐴 ( 𝐴𝐴 + ) 2 = 𝐴𝐴 + 𝐴𝐴 + = 𝐴𝐴 + 。类似地,在等式 𝐴𝐴 + 𝐴 = 𝐴 的两边左乘 𝐴 + ( 𝐴 + 𝐴 ) 2 = 𝐴 + 𝐴𝐴 + 𝐴 = 𝐴 + 𝐴



幂等矩阵和投影算子



满足𝑃 2 = 𝑃的方阵𝑃称为幂等矩阵,因此𝐴𝐴 + 和𝐴 + 𝐴都是幂等矩阵。“幂等”的定义代数味太浓,我们想用几何“调料”让它的味道变得更美,对应的等价术语是“投影”二字。由于投影是个重要的几何概念,我们先解释它。


其实,人们对投影并不陌生,一束平行的太阳光将正在阳光下走路的人投影到了路面上,形成了一个人影,这就是投影的一个司空见惯的例子。在中学或大学的力学课程中,我们知道两个不同方向的共点力的合力可以通过平行四边形法则几何地画出:以表示两力的有向线段为相邻边,作一个平行四边形,那么这两条邻边之间的那个对角线有向线段就代表了这两力的合力。反过来,我们可以将第一个力视为合力沿着第二个力的方向,


朝着第一个力所在的方向投影的结果。由直觉可知,一个向量如果投影到一个方向上,得到原向量的投影,再向同一方向投影一次,之前投影后的向量就保持不变了。这说明“连续投影两次无异于只投影一次”。


现在引进一般的投影概念。设𝑅 𝑛 是它的两个线性子空间𝑀和𝑁的直和:𝑅 𝑛 = 𝑀 ⊕ 𝑁。任给𝑅 𝑛 中的一个向量𝑥,存在𝑀中的向量𝑦和𝑁中的向量𝑧,使得𝑥 = 𝑦 + 𝑧,且该表达式是唯一的,故𝑦 ∈ 𝑀由𝑥唯一确定。这定义了一个算子,它将𝑥映射到𝑦。该算子的定义域是𝑅 𝑛 ,既然它依赖于子空间𝑀及其补空间𝑁的选取,我们将它记为𝑃 𝑀,𝑁 : 𝑅 𝑛 → 𝑅 𝑛 ,称为𝑅 𝑛 沿着𝑁到𝑀上的投影。易见,𝐼 − 𝑃 𝑀,𝑁 = 𝑃 𝑁,𝑀 。由定义易知,投影算子𝑃 𝑀,𝑁 是个线性算子,所以它也被称为投影矩阵,是一个方阵。我们再次说明,在线性代数中,欧几里得空间之间的线性算子就是矩阵。下面是投影算子示意图:


投影算子示意图


当𝑥 ∈ 𝑀时,由直和分解推出𝑦 = 𝑥及𝑧 = 0,故𝑃 𝑀,𝑁 𝑥 = 𝑥。同理,如果𝑥 ∈ 𝑁,则𝑦 = 0 及𝑧 = 𝑥,故𝑃 𝑀,𝑁 𝑥 = 0。由此我们获得投影算子必须满足的一个等式(𝑃 𝑀,𝑁 ) 2 = 𝑃 𝑀,𝑁 ,并且有𝑅(𝑃 𝑀,𝑁 ) = 𝑀及𝑁(𝑃 𝑀,𝑁 ) = 𝑁。


反之,任给一个线性算子𝑃: 𝑅 𝑛 → 𝑅 𝑛 ,假定𝑃 2 = 𝑃,即𝑃为一幂等矩阵。令𝑀 = 𝑅(𝑃)和𝑁 = 𝑁(𝑃),我们证明𝑃必定是𝑅 𝑛 沿着𝑁 = 𝑁(𝑃)到𝑀 = 𝑅(𝑃)上的投影算子:任给𝑥 ∈𝑅 𝑛 ,记𝑦 = 𝑃𝑥,则𝑦 ∈ 𝑀;令𝑧 = 𝑥 − 𝑦 = 𝑥 − 𝑃𝑥,则𝑃𝑧 = 𝑃𝑥 − 𝑃 2 𝑥 = 𝑃𝑥 − 𝑃𝑥 = 0,故𝑧 ∈ 𝑁。因而𝑥 = 𝑦 + 𝑧。另一方面,若𝑥为𝑀和𝑁之共有向量,则𝑃𝑥 = 0且存在𝑤 ∈ 𝑅 𝑛 使得𝑥 = 𝑃𝑤,故𝑥 = 𝑃𝑤 = 𝑃 2 𝑤 = 𝑃𝑥 = 0。所以𝑅 𝑛 = 𝑀 ⊕ 𝑁,且𝑃 = 𝑃 𝑀,𝑁


如上结果总结成下列引理:


引理 3. 一个线性算子𝑃: 𝑅 𝑛 → 𝑅 𝑛 是投影算子的充分必要条件是𝑃 2 = 𝑃。此时,它将𝑅 𝑛 沿着零空间𝑁(𝑃)投影到值空间𝑅(𝑃)上。


现在回到前面获得的两个等式 ( 𝐴𝐴 + ) 2 = 𝐴𝐴 + ( 𝐴 + 𝐴 ) 2 = 𝐴 + 𝐴 引理 3 告诉我们 𝐴𝐴 + 𝐴 + 𝐴 都是投影算子。此外,由广义逆矩阵的定义可知, 𝑅 ( 𝐴𝐴 + ) = 𝑅 ( 𝐴 ) 𝑁 ( 𝐴𝐴 + ) = 𝑅 ( 𝐴 ) 𝑐 𝑅 ( 𝐴 + 𝐴 ) = 𝑁 ( 𝐴 ) 𝑐 𝑁 ( 𝐴 + 𝐴 ) = 𝑁 ( 𝐴 ) 。从而有断言:投影算子 𝐴𝐴 + 𝑅 𝑚 沿着 𝑅 ( 𝐴 ) 𝑐 投影到 𝑅 ( 𝐴 ) 上,投影算子 𝐴 + 𝐴 𝑅 𝑛 沿着 𝑁 ( 𝐴 ) 投影到 𝑁 ( 𝐴 ) 𝑐 上,即前者为 𝑃 𝑅(𝐴),𝑅(𝐴) 𝑐 后者 𝑃 𝑁(𝐴) 𝑐 ,𝑁(𝐴) 。这样,矩阵 𝐴 和对应于这两个投影算子的广义逆矩阵 𝐴 + 满足四个等式:


𝐴𝐴 + 𝐴 = 𝐴 , 𝐴 + 𝐴𝐴 + = 𝐴 + ,

𝐴𝐴 + = 𝑃 𝑅(𝐴),𝑅(𝐴) 𝑐 , 𝐴 + 𝐴 = 𝑃 𝑁(𝐴) 𝑐 ,𝑁(𝐴)。


我们进一步证明下述的“等价性定理”:


定理 . 给定一𝑚行𝑛列矩阵𝐴。设𝑅(𝐴) 𝑐 为𝑅(𝐴)在𝑅 𝑚 中的一个补空间,𝑁(𝐴) 𝑐 为𝑁(𝐴)在𝑅 𝑛 中的一个补空间。则𝐴对应于直和分解(1)的广义逆矩阵𝐴 + 满足矩阵方程组


𝐴𝑋𝐴 = 𝐴, 𝑋𝐴𝑋 = 𝑋,

𝐴𝑋 = 𝑃 𝑅(𝐴),𝑅(𝐴) 𝑐, 𝑋𝐴 = 𝑃 𝑁(𝐴) 𝑐 ,𝑁(𝐴)。 (2)


反之,矩阵方程组(2)有唯一解,其解即为𝑋 = 𝐴 +


证明 . 前面已证𝐴 + 是矩阵方程组(2)的解。若𝑋是(2)的一个解,我们验证它必定等于𝐴 + 。因为贯穿本文的主线是抽象函数的概念,我们从算子的角度证实𝑋 = 𝐴 + ,即证明对所有的向量𝑦 ∈ 𝑅 𝑚 都有等式𝑋𝑦 = 𝐴 + 𝑦。由于这里的算子都是线性的且𝑅 𝑚 = 𝑅(𝐴) ⊕ 𝑅(𝐴) 𝑐 ,只需分别对𝑦 ∈ 𝑅(𝐴)和𝑦 ∈ 𝑅(𝐴) 𝑐 验证上述等式就够了。


先让𝑦 ∈ 𝑅(𝐴),则存在唯一的𝑥 ∈ 𝑁(𝐴) 𝑐 使得𝑦 = 𝐴𝑥。等式两边用𝑋作用之,再根据(2)中的第四个等式以及广义逆矩阵𝐴 + 的定义,便有


𝑋𝑦 = 𝑋𝐴𝑥 = 𝑃 𝑁(𝐴) 𝑐 ,𝑁(𝐴) 𝑥 = 𝑥 = 𝐴 + 𝑦


再设𝑦 ∈ 𝑅(𝐴) 𝑐 。则由(2)中的第三个等式知𝐴𝑋𝑦 = 0。等式两边用𝑋作用,再利用(2)中的第二个等式,就推得


𝑋𝑦 = 𝑋𝐴𝑋𝑦 = 𝑋0 = 0 = 𝐴 + 𝑦,


即𝑋 = 𝐴 + ,由于𝐴 + 是唯一的,矩阵方程组(2)的解存在并唯一。这说明(2)是矩阵广义逆的 “特征方程组”,定理得证。


正交补空间和正交投影算子



可是,历史上广义逆矩阵并非一开始就这么“无限自由”,可以选取矩阵值空间、零空间的任意补空间来定义,而是选取了两个特殊的补空间,它们分别为给定矩阵𝐴的值空间和零空间的正交补空间,各自记成𝑅(𝐴) 和𝑁(𝐴) 。表达“正交”的符号“⊥”是我们在中学平面几何中神交过的老朋友——垂直关系,它的形状就意味着与直角相关。是的,线性代数中的正交概念也与90 角脱不了干系。在二维或三维欧几里得空间里,两个向量是正交的,其几何意义就是它们之间的夹角为90


要提出正交补空间的概念,需要对𝑅 𝑛 定义新的运算:两个向量的内积,在𝑛 = 2或3的情形,也称为平面或空间向量之间的点积或标量积。具体说来,向量𝑥 = (𝑥 1 , … , 𝑥 𝑛 )和𝑦 = (𝑦 1 , … , 𝑦 𝑛 )的内积是实数𝑥 1 𝑦 1 + 𝑥 2 𝑦 2 + ⋯ + 𝑥 𝑛 𝑦 𝑛 ,它也可以写成矩阵乘法的简洁形式𝑥 𝑇 𝑦,其中𝑥和𝑦都被视为𝑛维列向量,即𝑛行1列矩阵。


在解析几何中,我们学过平面上或空间中两个向量𝑥和𝑦的点积,它被定义为这两个向量的长度乘以它们之间角度的余弦值,这个点积有个用向量分量表达的计算公式,即𝑥 = (𝑥 1 , 𝑥 2 )和𝑦 = (𝑦 1 , 𝑦 2 )的内积等于𝑥 1 𝑦 1 + 𝑥 2 𝑦 2 ,以及𝑥 = (𝑥 1 , 𝑥 2 , 𝑥 3 )和𝑦 = (𝑦 1 , 𝑦 2 , 𝑦 3 )的内积等于𝑥 1 𝑦 1 + 𝑥 2 𝑦 2 + 𝑥 3 𝑦 3 。众所周知,当两个向量的夹角为90 ,即它们相互垂直 (或所谓正交) 时,夹角的余弦等于0,因而两向量的点积为0。所以对于我们目所能及的平面或空间而言,两个非零向量正交当且仅当它们的点积为0。


对于𝑛 > 3的欧几里得空间𝑅 𝑛 ,里面的向量非我人类目力所能及,然而在数学的天空我们依然把它们看得一清二楚,这完全得益于人的想象力。基于点积的分量乘积和公式,我们可以想象,当向量𝑥和𝑦的内积𝑥 𝑇 𝑦 = 𝑥 1 𝑦 1 + 𝑥 2 𝑦 2 + ⋯ + 𝑥 𝑛 𝑦 𝑛 = 0时,这两个向量在高维空间中是“相互垂直”的,因而我们有理由在此情况下称𝑥和𝑦正交。


有了向量正交的概念,我们就可以毫不费力地定义𝑅 𝑛 中一个子空间的正交补空间了。假定𝑉是𝑅 𝑛 的一个线性子空间,则它的正交补空间𝑉 是𝑅 𝑛 中与𝑉中所有向量都正交的那些向量组成的集合。容易验证𝑉 也是𝑅 𝑛 的一个线性子空间,且与𝑉的公共元素只有零向量。此外,运用线性方程组理论,可以证明𝑉 的维数等于𝑛减去𝑉的维数。所以我们得到欧几里得空间的一个特殊但特别重要的直和分解:𝑅 𝑛 = 𝑉 ⊕ 𝑉 ,称为正交直和分解。


正交直和分解用在平面上,就可催生出笛卡尔平面直角坐标系。据说在1619年11月10日那晚,法国天才笛卡尔做了三个奇特的梦,其中第二个梦萌生出“点的坐标”这一数形结合的伟大思想,启发了解析几何的创立。美国数学史家贝尔在其著作《数学大师:从芝诺到庞加莱》中,甚至将这一天说成是“现代数学的公论的诞生日”。


如果在上面广义逆矩阵的定义中,将值空间𝑅(𝐴)的一般补空间𝑅(𝐴) 𝑐 选为𝑅(𝐴)的正交补空间𝑅(𝐴) ,将零 空间𝑁(𝐴)的一般补空间𝑁(𝐴) 𝑐 选为𝑁(𝐴)的正交补空间𝑁(𝐴) ,那么这个特定的广 义逆矩阵一般用特定的记号𝐴 表示,它是下列矩阵方程组


𝐴𝑋𝐴 = 𝐴,  𝑋𝐴𝑋 = 𝑋,

𝐴𝑋 = 𝑃 𝑅(𝐴),𝑅(𝐴) ⊥,  𝑋𝐴 = 𝑃 𝑁(𝐴) ,𝑁(𝐴) (3)


的唯一解。基于正交补空间的投影算子称为正交投影算子,它最引人注目的特色是:投影之后,向量的“长度”或“欧几里得范数”不会变大,长方形的对角线总不短于每边就是它的直观几何;而非正交的投影没有这个好性质,比方说在太阳落山前一对情侣手拉手散步时,就会发现两人的影子比他们的身体长上好几倍。这里𝑛维向量𝑥 = (𝑥 1 , … , 𝑥 𝑛 )的长度定义为它和自己的内积再开算术平方根,在𝑛 = 2或3时就是通常的线段长度。正交投影这个独一无二的优势使得𝐴 与最小二乘法挂上了钩,后者在科学与工程中有广泛应用。我们或许将再写一篇数学科普,专谈最小二乘。


英雄所见略同



广义逆矩阵𝐴 记号中形似佩剑的上标“†”,它的刀刃反射出广义求逆思想的光芒,就像一把锋利的匕首,刺向数学的苍穹。投出匕首的第一人是一百年前美国数学界的领袖之一、芝加哥大学数学家穆尔 (Eliakim Hastings Moore,1862-1932) 。1920年,他在《美国数学会公报》 Bulletin of the American Mathematical Society 第26卷第9期上发表了一篇仅有两页的短文《关于一般代数矩阵的倒数》 (On the reciprocal of the general algebraic matrix) 。他所称谓的“矩阵的倒数”就是上面由方程组(3)刻画出的广义逆矩阵。那时他已是一位58岁的老教授了,但依然还有创造力。穆尔当之无愧地成为矩阵广义逆之父,但是今日这种逆矩阵的正式名字却是“穆尔-彭罗斯广义逆”。


这其中的缘故何在呢?原来,穆尔所定义的广义逆矩阵有点超越时代,因为一百年前,电子计算机还停留在科幻小说里,一直到上世纪四十年代才变成现实。没有机器的大型科学计算能力,新的数学理论缺乏用武之地,所以穆尔的思想几乎被人遗忘。不过,他生前参与指导的最后一位博士生、中国人曾远荣接过了广义逆长跑第二棒,将师傅的有限维线性算子 (矩阵) 的广义求逆法推广到无穷维空间上的线性算子。曾远荣在博士论文中定义的算子广义逆被后人称为“曾逆”,在广义逆算子这个兼具理论和应用价值的算子理论子领域,他也因此成为奠基人之一。2017年5月,笔者之一 (指丁玖——编者注) 曾采访了来访扬州大学的美国数学家Zuhair Nashed (1936-) 。他是70年代算子广义逆理论的世界权威之一、美国数学会的首批会士。他在访谈中充分肯定曾远荣的先驱性贡献。曾远荣在1933年获得芝加哥大学博士学位后回国,引进了泛函分析这一现代数学分支,培养了关肇直、田方增和徐利治等一批分析学家。他大概也预见到了他导师的广义逆矩阵及他自己的广义逆算子在计算数学这一新生事物中的巨大应用潜力,于1958年在他担任一级教授的南京大学创立了计算数学专业。


广义逆长跑的第三接棒人是瑞典大地测量学家比耶哈马尔 (Arne Bjerhammar,1917- 2011) ,他于1951年发表了论文《矩阵计算在最小二乘法中的应用:着重关于大地测量计算》。然而直到四年后,英国一位才华横溢的年轻人独立发现广义逆矩阵,才真正激起了计算数学界对广义逆的热情。他所定义的逆与25年前美国前辈穆尔所创造的一模一样,只不过各自采用的矩阵方程组在形式上略有区别。2020年,罗杰·彭罗斯 (Roger Penrose,1931-) 这个名字开始被大众熟知,那年他获得了诺贝尔物理学奖,被媒体广为报道。而他在24岁时取得的这一项成就,也在数学之路上刻下了醒目的路标。正因为彭罗斯的非凡贡献,基于矩阵值空间和零空间正交补空间的广义逆矩阵,始终被统一命名为穆尔-彭罗斯广义逆。


彭罗斯发现的广义逆矩阵特征方程组具有形式


𝐴𝑋𝐴 = 𝐴, 𝑋𝐴𝑋 = 𝑋,

(𝐴𝑋) 𝑇 = 𝐴𝑋, (𝑋𝐴) 𝑇 = 𝑋𝐴。 (4)


(4)中的后两个等式表明矩阵𝐴𝑋和𝑋𝐴均为实对称矩阵。


穆尔的特征方程组(3)和彭罗斯的特征方程组(4)为何等价呢?这基于一个事实。我们前面已知,一个矩阵是投影矩阵当且仅当它是幂等的,但无需是实对称的,即它的元素关于主对角线可以非对称分布。然而正交投影矩阵的充分必要条件为它不仅是幂等的,而且还是实对称的。我们着手证明这个事实。


先设 𝑛 阶幂等矩阵 𝑃 给出正交投影。任给两向量 𝑥, 𝑤 ∈ 𝑅 𝑛 ,则有唯一分解 𝑥 = 𝑦 + 𝑧, 𝑤 = 𝑢 + 𝑣 ,其中 𝑦, 𝑢 ∈ 𝑅(𝑃) 𝑧, 𝑣 ∈ 𝑅(𝑃) 。由这两个互补正交子空间的正交性, 𝑦 𝑇 𝑣 = 0, 𝑧 𝑇 𝑢 = 0 ,然后根据 𝑃 的定义,


(𝑃𝑥) 𝑇 𝑤 = 𝑦 𝑇 𝑤 = 𝑦 𝑇 (𝑢 + 𝑣) = 𝑦 𝑇 𝑢,

(𝑃 𝑇 𝑥) 𝑇 𝑤 = 𝑥 𝑇 𝑃𝑤 = 𝑥 𝑇 𝑢 = (𝑦 + 𝑧) 𝑇 𝑢 = 𝑦 𝑇 𝑢。


上两式说明[(𝑃𝑥) 𝑇 − (𝑃 𝑇 𝑥) 𝑇 ]𝑤 = 0对𝑅 𝑛 中所有的向量𝑤都成立,特别,取𝑤 = 𝑃𝑥 −𝑃 𝑇 𝑥,则有(𝑃𝑥 − 𝑃 𝑇 𝑥) 𝑇 (𝑃𝑥 − 𝑃 𝑇 𝑥) = 0,推出𝑃𝑥 − 𝑃 𝑇 𝑥 = 0,即𝑃𝑥 = 𝑃 𝑇 𝑥。既然𝑥是𝑅 𝑛 中的任意向量,必然有𝑃 = 𝑃 𝑇 ,这就证明了必要性。


反之,设幂等矩阵 𝑃 满足 𝑃 = 𝑃 𝑇 𝑃 的幂等性表明它是个投影矩阵。我们证明它也是正交投影矩阵,即证明 𝑁 ( 𝑃 ) = 𝑅 ( 𝑃 ) 。任给向量 𝑥 𝑅 ( 𝑃 ) 𝑦 𝑁 ( 𝑃 )


𝑥 𝑇 𝑦 = (𝑃𝑥) 𝑇 𝑦 = 𝑥 𝑇 𝑃 𝑇 𝑦 = 𝑥 𝑇 𝑃𝑦 = 𝑥 𝑇 0 = 0,


换言之, 𝑥 𝑦 正交。又因为 𝑃 为投影矩阵, 𝑅(𝑃) 𝑁(𝑃) 的维数之和等于 𝑛 。综上所述可知 𝑁(𝑃) = 𝑅(𝑃) ,即 𝑃 为正交投影矩阵,从而充分性得证。


现在我们就能快速证出(3)和(4)的等价性。先设𝑋求解了(3),则其后两个等式表明𝐴𝑋和𝑋𝐴都是正交投影矩阵,根据上段所述,它们都是实对称矩阵。反过来设𝑋是(4)的解,则对其前两个等式的两边分别左乘𝑋和𝐴,便知𝐴𝑋和𝑋𝐴都是幂等矩阵,而后两个等式则说明它们也是实对称的,故由上一段中的等价说法,𝐴𝑋和𝑋𝐴是正交投影矩阵,故(3)中的后两个等式成立。这就充分说明英国人彭罗斯和相隔四分之一世纪的美国人穆尔“英雄所见略同”,因此将他们各自定义的广义逆矩阵起名为穆尔-彭罗斯广义逆是天经地义的。


广义逆矩阵总是存在的,但怎样算出它本质上却只有一个普适公式,这依赖于矩阵的 奇异值分解 ,计算起来费时费力。不过对于 单射 的高矩阵和 满射 的矮矩阵,我们能给出一个相对简洁易算的 穆尔 - 彭罗斯广义逆表达式 。设 𝐴 为一高矩阵,且它的所有列向量线性无关,这推出矩阵 𝐴 𝑇 𝐴 是非奇异的,即它的逆矩阵存在,则 𝐴 = ( 𝐴 𝑇 𝐴) -1 𝐴 𝑇 。读者可以用 (𝐴 𝑇 𝐴) -1 𝐴 𝑇 取代 (4) 中的 𝑋 予以证明。类似地,如果 𝐴 为一矮矩阵,并设它的所有行向量线性无关,则 𝐴 = 𝐴 𝑇 (𝐴𝐴 𝑇 ) -1


由四个矩阵方程定义的穆尔-彭罗斯广义逆是最有名,也是最有用的广义逆矩阵。如果只考虑这个方程组中的部分方程,比如𝐴𝑋𝐴 = 𝐴,解就失去了唯一性,但研究这些解的性质和结构依然有趣有用。不过本文就此打住,不再赘言。最后我们请喜欢做习题的读者对文中那个所有元素都为1的二阶矩阵,算出它的穆尔-彭罗斯广义逆。在按照定义求出广义逆后,您也可以将给定的矩阵写成有一列的高矩阵和有一行的矮矩阵之积形式,问问自己能不能推演出一个对应的乘积矩阵穆尔-彭罗斯广义逆公式来。





图片

声明: 此文是出于传递更多信息之目的。 部分图片、资料来源于网络,版权归原作者所有,如有侵权请联系后台删除。

往期推荐:





阿兰·孔涅和他的非交换几何世界


重塑对称理论的数学家,获得2025年阿贝尔奖


地球究竟多古老?又是谁第一个揭开了地球年龄秘密的面纱?(上)


中国完成全球首例基因编辑猪肝脏移植人体,我们就快用上猪器官了吗?


重回自由表达与创造的密林 | 量子多体中的野草







请到「今天看啥」查看全文