专栏名称: 算法与数学之美

从生活中挖掘数学之美，在实践中体验算法之奇，魅力旅程，从此开始！

斯坦福大学CS224d基础：线性代数知识

算法与数学之美 · 公众号 · 算法 · 2016-12-06 22:33

正文

作者：Zico Kolter

出处： http://blog.csdn.net/longxinchen_ml/article/details/51629328

1 基本概念和符号

线性代数可以对一组线性方程进行简洁地表示和运算。例如，对于这个方程组 :

这里有两个方程和两个变量，如果你学过高中代数的话，你肯定知道，可以为x1 和x2找到一组唯一的解 (除非方程可以进一步简化，例如，如果第二个方程只是第一个方程的倍数形式。但是显然上面的例子不可简化，是有唯一解的)。在矩阵表达中，我们可以简洁的写作:

其中：

很快我们将会看到，咱们把方程表示成这种形式，在分析线性方程方面有很多优势 ( 包括明显地节省空间 ) 。

1.1基本符号

以下是我们要使用符号 :

符号 A ∈ R ^m×n 表示一个m 行 n 列的矩阵，并且矩阵 A中的所有元素都是实数。
符号 x ∈ R ⁿ 表示一个含有n个元素的向量。通常，我们把 n 维向量看成是一个 n 行1列矩阵，即列向量。如果我们想表示一个行向量（ 1 行 n 列矩阵），我们通常写作 x ^T ( x ^T 表示 x 的转置，后面会解释它的定义)。
一个向量 x 的第 i 个元素表示为 x _i ：

我们用 a _ij (或 A _ij ，A _i，j ，等) 表示第 i 行第 j 列的元素：

我们用 a _j 或 A _{:

，j} 表示A矩阵的第 j 列元素：

我们用 a ^T _i 或 A _i，: 表示矩阵的第 i 行元素 :
请注意，这些定义都是不严格的（例如， a ₁ 和 a ₁ ^T 在前面的定义中是两个不同向量）。通常使用中，符号的含义应该是可以明显看出来的。

2 矩阵乘法

矩阵 A ∈ R ^{m

×

n} 和 B ∈ R ^{n

×

p} 的乘积为矩阵：

其中：

请注意，矩阵 A 的列数应该与矩阵 B 的行数相等，这样才存在矩阵的乘积。有很多种方式可以帮助我们理解矩阵乘法，这里我们将通过一些例子开始学习。

2.1 向量的乘积

给定两个向量x，y ∈ R ⁿ ，那么x ^T y的值，我们称之为向量的内积或 点积。它 是一个由下式得到的实数：

可以发现，内积实际上是矩阵乘法的一个特例。通常情况下x ^T y = y ^T x。

对于向量x ∈ R ^m ， y ∈ R ⁿ （大小不必相同），xy ^T ∈ R ^m×n 称为向量的外积。外积是一个矩阵，其中中的每个元素，都可以由得到，也就是说，

我们举个例子说明外积有什么用。令 1 ∈ R ⁿ 表示所有元素都是1的n维向量，然后将矩阵 A ∈ R ^{m

×

n} 的每一列都用列向量 x ∈ R ^m 表示。使用外积，我们可以将A简洁的表示为：

2.2 矩阵-向量的乘积

对于一个矩阵 A ∈ R ^{m

×

n} 和向量 x ∈ R ⁿ ，他们的乘积为向量 y = Ax ∈ R ^m 。理解矩阵向量乘法的方式有很多种，我们一起来逐一看看。

以行的形式书写A，我们可以将其表示为Ax的形式：

也就是说， y 第 i 行的元素等于A的第 i 行与x的内积 .

咱们换个角度，以列的形式表示A，我们可以看到：

换言之， y 是A列的线性组合，线性组合的系数就是x的元素。

上面我们看到的是右乘一个列向量，那左乘一个行向量嘞？对于A ∈ R ^m×n ，x ∈ R ^m ， y ∈ R ⁿ ，这个式子可以 写成 y ^T = x ^T A 。 向之前那样，我们有两种方式表达 y ^T ，这取决于表达A的方式是行还是列。第一种情况是把A以列的形式表示：

这个式子说明y ^T 第 i 列的元素等于向量 x 与A的第i列的内积。

我们也一样可以把 A表示成行的形式，来说明向量 - 矩阵乘积。

我们可以看到 y ^T 是 A的行的线性组合，线性组合的系数是 x 的元素。

2.3 矩阵 - 矩阵乘积

基于以上知识，我们可以看到如之前所定义的矩阵 - 矩阵乘法 C=AB 有四种不同（但是等价）的理解方法。

首先，我们可以将矩阵 - 矩阵相乘看作一组向量 - 向量乘积 。根据其概念，我们最好理解的方式是 矩阵C的 ( i，j ) 元素是A的 i 行与B的 j 列的内积。符号表达如下：

注意由于 A ∈ R ^{m

×

n} ， B ∈ R ^{n

×

p} ， a _i ∈ R ⁿ b _j ∈ R ⁿ ，所以内积永远有意义。对矩阵乘法而言，以 A 的行和 B 的列表示是最"自然"的表示方法。当然，我们也可以以 A 的列和 B 的行的形式进行表示。表达方法是 AB 外积累加的形式，稍微复杂一点点。符号表达为：

换一种方式表达，AB的值等于对于所有的i，A的i列与B的i行的外积的和。因此，对于 a _i ∈ R ^m 和 b _i ∈ R ^p ，外积a _i b _i ^T 的维度是m×p，它与 C 的维度是相同的。等式可能有点难理解，花点时间想想，我猜你肯定能明白。

第二种理解方式是，我们也可将向量 - 向量乘法看做一系列的矩阵 - 向量 乘积。具体来说，如果我们将B 以列的形式表示，我们可以将 C 的每一列看做 A 和 B 列的矩阵 - 向量乘积。符号表达为：

可以将 C 的 i 列以矩阵 - 向量乘积（向量在右）的方式表示为 c _i = Ab _i . 这些矩阵 - 向量乘积可以用前面的两种观点解释。最后类比一下，我们以 A 的行形式表示，将 C 的行视为 A 的行与 C 的矩阵 - 向量乘积，符号表达为

在此，我们以矩阵 - 向量乘积（向量左乘）的形式表示了 C 的 i 列，

只是一个矩阵乘法而已，这么细的分析看上去好像没有必要，尤其是当我们知道矩阵乘法定义后其实很容易可以计算得到结果。然而，几乎所有的线性代数内容都在处理某种类型的矩阵乘法，因此花一些时间去形成对这些结论的直观认识还是很有帮助的。

此外，知道一些更高层次的矩阵乘法的基本性质也是有好处的：

结合律即( AB ) C = A ( BC )
分配率即 A ( B + C ) = AB + AC
注意哦，矩阵乘法没有交换律，即 AB ≠ BA .（例如，如果 A ∈ R ^{m

×

n} 和 B ∈ R ^{n

×

q} ，矩阵的乘积 BA 在 m 和 q 不等时， BA 可能根本就不存在）

如果你对这些性质不熟悉，最好花些时间自己证明一下。例如，为了验证矩阵乘法的结合律，对于 A ∈ R ^{m

×

n} ， B ∈ R ^{n

×

p} ， C ∈ R ^{p

×

q} ，注意 AB ∈ R ^{m

×

p} ，而 ( AB ) C ∈ R ^{m

×

q} 。类似的有 BC ∈ R ^{n

×

q} ，所以 A ( BC) ∈ R ^m×q 。因此可以得到维度相同的矩阵。为了说明矩阵乘法符合结合律，证明 (AB)C 第(i,j)个元素是否与 A(BC)的 (i,j)个元素相等就够了。我们可以直接运用矩阵乘法的定义进行证明。