线性代数到底是什么？

发布时间：

2023-08-16 11:21

阅读量：

我无法忘记大学第一次学习线性代数时的感觉，那是一种脱离实际的抽象，以及让人应接不暇且毫无意义的关系，每个细小的问题都可以找到一个角度去看，但是这些角度却没有什么实际意义。最让人痛苦的是并没有一个统一的角度来抽象这些东西，同时也让我惊讶于在如此讲究逻辑的数学中看到的东西竟然如此混沌。而这种无法掌控,随着时间会完全遗忘，仿佛从未学过的感觉一直让我失去再次拜读那些如经文一般的课本的冲动。毕业的时候，我也明确的知道垃圾桶才是这些垃圾课本的归宿。

后面也多次学习了线性代数的内容，但是依旧没有掌握一个合适的角度，那时的我并没有深知学习这个过程中信息收集的重要性，妄图通过一本看上去很完善的课本，或者某个出名的课程一遍就掌握了所有的知识，从而找到一个拥有极高自由的角度。数学对于我而言，找到一个合适的角度理解比做再多的数学问题都重要，当然不是说数学问题的解决技巧和定理的推导不重要，只是这些东西可以通过特定的训练就可以达到一定较好的程度，但是一个好的角度真的很难通过十几遍的重复训练就能够找到的，因此我决定专门写一系列文章来呈现我所能找到和理解的特殊视角，让这些东西不再如此枯燥。

我会通过这些文章来展现我对这些内容的理解。而计算以及各种数学技巧不是本系列文章探讨的重点,这些系列中数学主要有工科常见的几门，线性代数、复变函数与积分变换、概率论与数理统计。至于微积分我并不打算深入介绍我在这里推荐两本经典的微积分入门书籍《普林斯顿微分读本》和《托马斯微积分》，前者我拜读过数遍，作者写的深入浅出，定理和证明写的直观且符合直觉，而且这本书的主题逻辑十分明确，这本书在微信读书就可以免费阅读。而后者我并没有真正的读过，但是听好多读过的人评价也是十分不错。

我的这篇文章角度主要来自数学科普大神3Blue1Brown的线性代数本质系列,我希望各位在看这篇文章之前可以去看一看这一个系列，个人认为这篇文章配合3b1b大神的视频食用效果会更佳，如果没有一定的基础想要理解3b1b的视频还是要下一些功夫（多看几遍）的。

向量

向量与坐标点的区别？

向量或许是线性代数中我们最为熟知的概念了，庸俗的看就是一个坐标 $(x,y)$ ,但实际上坐标与向量有着明显的区别。以二维平面为例，我们随便选择一个点作为零点建立一个直角坐标系（笛卡尔坐标系），我们再随便选择一个点比如 $(1,2)$ , 然后我们从零点出发用直线连接 $(0,0)$ 和 $(1,2)$ 两点，并打上一个箭头（方向从零点开始）表式他的方向，这个东西便是向量。

（1）坐标系中的点

（2）坐标系中的向量

图 (2)向量书面表式为： $\begin{bmatrix} 1\\ 2\\ \end{bmatrix}$ ,这里要注意虽然向量的这种表式和坐标点 $(1,2)$ 看上去包含的信息是一样的，但是具有不同的意义，向量表示的是从 $(0,0)$ 到 $(1,2)$ 的线段（包含里面的点），且有方向 (包含角度)，有长度。而(1,2)则只是表式一个点,没有长度和方向的性质。

基向量与向量空间是什么？

向量有一个有趣的性质,还是以二维平面为例,如果一个二维平面中存在两个角度不同(即不在同一条直线上,相差180度的一般当成长度为负)且长度不为零的向量,则可以通过拉伸或者压缩这两个向量组合成二维平面的任何一个向量,如图3。

（3）通过向量a和向量b合成向量c

即我们可以通过这两个向量的组合 $k_1\vec{a}+k_2\vec{b}=\vec{c}$ 来代表整个二维平面的任何向量 $\vec{c}$ （其中 $k_1$ 表式向量 $\vec{a}$ 拉伸的长度， $k_2$ 表式向量 $\vec{b}$ 拉伸的长度）,这时候我们就可以说这两个向量张成（张成的意思其实很好理解，想象你打开了一把伞一根根伞骨便张成了一个伞面形成了一个空间）的空间是一个二维空间，这个空间便是向量空间。而这两个向量 $\vec{a}$ 和 $\vec{b}$ 我们通常称为该空间的基向量。

你可能会奇怪，我们上面说向量不是从原点到一个端点的有向线段吗？为什么图3中绿色的家伙，跑到红色向量的头上了？虽然我们将绿色的向量移到了红色向量的头上，但是他的坐标表式依旧不变，无论将它移到那里，算它的终点坐标都是要将其移到原点的。

在一个二维平面中,让我们选择两个基向量的话,正常人(为了简便)肯定选择 $\imath$ 和 $\jmath$ , 如图

（4）选择i和j作为空间中的基向量

表式为 $\imath=\begin{bmatrix}1\\0\\\end{bmatrix}$ $\jmath=\begin{bmatrix}0\\1\\\end{bmatrix}$ 。我们可以通过这两个向量来表式任意向量 $\begin{bmatrix}x\\y\\\end{bmatrix}$ ,即 $\begin{bmatrix} x\\ y\\ \end{bmatrix}=x\imath+y\jmath\tag{1}$ 即向 $\imath$ 方向拉伸 $x$ 个单位长度和向 $\jmath$ 方向拉伸 $y$ 个单位的和。上面这个公式是整个线性代数的基础，矩阵运算都是建立在这个公式的基础上。

在三维及其三维以上的空间中这个公式依旧成立，所以更高维度的向量空间也可以看做是由几个基向量张成的，因此，当我们研究一个向量空间的时候只要关注其基向量就行。

什么是线性相关？

很显然,二维平面是一个二维空间,该平面的向量即为二维向量,我们给定两个二维向量 $\vec{a}$ , $\vec{b}$ ,这两个二维向量的线性相关很容易理解,如果 $\vec{a}$ 和 $\vec{b}$ 线性相关则 $\vec{a}$ 和 $\vec{b}$ 这两个向量在同一条直线上。但是当我们给出一组二维向量时他们的线性相关性就不怎么明显了。

例如给出 $\vec{a}$ , $\vec{b}$ , $\vec{c}$ , $\vec{d}$ , $\vec{e}$ , $\vec{f}$ 六个二维向量，这个向量组的线性相关性就是用这个向量组张成了一个向量空间，但是还剩下一些向量，去除这些向量并不影响向量空间的维数，则该组向量线性相关。比如这六个二维向量张成的最大空间为二维，那么只要选取两个不在同一条直线上的向量就可以作为该空间的基向量。剩下的向量并不影响向量空间的维数，并且可以由两个基向量用类似公式(1)的形式表式出来，例如选取 $\vec{a}$ 和 $\vec{b}$ （假定两个向量并不在同一条直线上）作为基向量(其中 $k_n$ , $n=0,1,2\dots,8$ 为 $\vec{a}$ 和 $\vec{b}$ 伸缩的长度)

$k_1\vec{a}+k_2\vec{b}=\vec{c}\\$

$k_3\vec{a}+k_4\vec{b}=\vec{d}\\$ $k_5\vec{a}+k_6\vec{b}=\vec{e}\\$ $k_7\vec{a}+k_8\vec{b}=\vec{f}\\$ 总结来说，如果空间维数小于向量的个数则这组向量是线性相关的,为什么要将这个特性称为线性相关呢？看看上面的式子就一目了然，因为他们可以表示为线性的方程。那所谓的线性无关也就好理解了，每一个向量都有一个其他向量没有的维度，一组线性相关向量组，去掉任何一个向量张成空间的维数都会减少。

矩阵

什么是线性变换？

先掠过线性变换这个烦人且抽象的概念,我们来思考是否存在这样一个"函数" $L$ ,输入变量是一个向量，然后输出另一个向量，同样以二维向量为例( $\vec{v}$ 和 $\vec{n}$ 为二维向量) $L(\vec{v})=\vec{n}\tag{2}$ 不过令人遗憾的是就算是及其简单的二维向量"函数"，由于输入输出都有两个维度，我们无法在三维空间绘制四维空间，做不到像普通的一维函数一样通过二维平面来表式所有信息。

（5）输入平面

（6）输出平面

但是我们可以这样,画两个二维平面 (如上图),图（5）为输入平面,图（6）为输出平面。我们可以看到经过"函数" $L$ 的作用后，向量 $\vec{v}= \begin{bmatrix} 2\\ 3\\ \end{bmatrix}$ 变为了向量 $\vec{n}= \begin{bmatrix} -3\\ 2\\ \end{bmatrix}$ 。如果说一个向量经过一个"函数"的作用后的结果任然是一个向量（向量没有被弯曲，同时向量的起点还在原点的位置，这是由于向量是从坐标原点到某一点的有向线段的定义决定的），则我们称这个"函数"为线性变换。其实很好理解，如果我们输入一个向量输出一个打着中国结一样的东西肯定是不行的，我们都不知道这个结的到底经历了什么。

我们从一个直观的角度来看待线性变换，如果我们将输入平面画满网格，并且变换能够作用于这些网格（这些网格看做是向量的端点组成的，能够被变换作用），线性变换的作用就可以可视化为如下形式：

（7）输入平面

（8）输出平面

线性变换后这些网格直线将保持平行且等距分布，当然向量起点的位置依旧不变，如果不满足上述条件，则该变换并不满足线性的条件。

至于我们为什么要引入线性变换或者说保证一个变换是线性的目的，其实是由于：线性变换之后这个公式 $\begin{bmatrix} x\\ y\\ \end{bmatrix}=x\mathbf{i}+y\mathbf{j}\tag{3}$ 依旧成立，举个例子，假设我们知道一个向量 $\begin{bmatrix}x_0\\y_0\\\end{bmatrix}$ 在一个二维向量空间中，这个空间中的基向量是 $\imath=\begin{bmatrix}1\\0\\\end{bmatrix}$ 和 $\jmath=\begin{bmatrix}0\\1\\\end{bmatrix}$ ,这个向量空间经过了一个线性变换 $L$ ,将 $\imath$ 和 $\jmath$ 变换为了 $\imath_{1}$ 和 $\jmath_{1}$ 。那么经过 $L$ 变换后向量 $\begin{bmatrix}x_0\\y_0\\\end{bmatrix}$ 的值 $\begin{bmatrix}x_1\\y_1\\\end{bmatrix}$ 可以通过公式 (3)求得： $\begin{bmatrix} x_1\\ y_1\\ \end{bmatrix}=x_0\imath_{1}+y_0\jmath_{1}\tag{4}$ 即在变换后的 $\imath_{1}$ 和 $\jmath_{1}$ 上进行跟原来一样等比例的拉伸后就能够得到这个向量经过 $L$ 变换后的向量。

矩阵是什么？

线性代数中另一个令人摸不着头脑的概念是矩阵，很多人对他的直观印象就是一个由数字组成且让人头疼的方块。我们先放下这个方块的各种特性，来看看它意味着什么。还记得上面我们提到的函数或者变换 $L$ 吗?

(9)输入平面

（10）输出平面

我们试试能不能找出满足 $L$ 条件的变换，我们知道输入向量为 $\vec{v}= \begin{bmatrix} 2\\ 3\\ \end{bmatrix}$ ，输出向量为 $\vec{n}= \begin{bmatrix} -3\\ 2\\ \end{bmatrix}$ 经过观察我们很容易发现， $L$ 这个线性变换的作用是将向量 $\vec{v}$ 逆时针旋转九十度得到向量 $\vec{n}$ ,我们首先来思考有没有这么一个式子输入是线性变换前的向量，输入是线性变换后的向量？有！就是我们第一个见到的公式，并且我强调了它是整个线性代数运算的基础，我们来看公式 $\begin{bmatrix} x_1\\ y_1\\ \end{bmatrix}=x_0\imath_{1}+y_0\jmath_{1}\tag{5}$

这个式子里面向量 $\begin{bmatrix} x_1\\ y_1\\ \end{bmatrix}$ 可以看做是输出向量 $\vec{n}$ ,而 $x_0$ 和 $y_0$ 则可以看为输入向量 $\vec{v}$ 的元素。所以现在我只要找到逆时针旋转 $90^o$ 后的基向量 $\imath_{1},\jmath_{1}$ 就能够通过这个式子完成跟变换 $L$ 一样的功能。稍加思考就可以知道基向量 $\imath=\begin{bmatrix}1\\0\\\end{bmatrix}$ 和 $\jmath=\begin{bmatrix}0\\1\\\end{bmatrix}$ 绕零点旋转 $90^o$ 后的值为： $\imath_{1}=\begin{bmatrix}0\\1\\\end{bmatrix}$ , $\jmath_{1}=\begin{bmatrix}-1\\0\\\end{bmatrix}$

（11）逆时针旋转90度后的基向量

此时我们很容易就能够写出与变换 $L$ 有着同样作用效果的式子 $\vec{n}=2\begin{bmatrix}0\\1\\\end{bmatrix}+3\begin{bmatrix}-1\\0\\\end{bmatrix}\tag{6}$ 我们人为的操作一下，改一改这个式子： $\vec{n}=\begin{bmatrix}0&-1\\1&0\\\end{bmatrix} \begin{bmatrix}2\\3\\\end{bmatrix}=\begin{bmatrix}0&-1\\1&0\\\end{bmatrix}\vec{v}\tag{7}$ 咦？我们创造了一个矩阵！知道为什么前面需要强调基向量以及式子 (1)了吧，因为一个矩阵可以看做是经过一个线性变换后的基向量的组合（这里以列向量为例），而这个线性变换对向量的作用可以通过对基向量的伸缩来体现。此时我们便可以用这个矩阵来表式相应的线性变换。总的来说矩阵就是一个"函数"，输入输出变量都为向量。

非方阵的意义？

按照我们前面所构思的矩阵都是方阵，那么非方阵又该怎么理解呢？非方阵可以分为两种，一种是行数大于列数，另外一种是列数大于行数，如下所示。 $\mathbf{A}=\begin{bmatrix} 1&2\\ 2&3\\ 3&1\\ \end{bmatrix}\qquad \mathbf{B}=\begin{bmatrix} 1&2&3\\ 3&2&1\\ \end{bmatrix}$

首先来解释形如矩阵 $A$ 这种类型的，矩阵 $\mathbf{A}$ 由两个列向量组成，每一个列向量有三个元素，是两个三维的列向量。对这个矩阵的解释是这样的，二维向量中的两个基向量 $\imath,\jmath$ 被变换到了三维空间中的一个平面上，所以该变换可以用这两个被变换到三维空间中的列向量来表式，因为该矩阵 $\mathbf{A}$ 只有两个列向量,因此张成了一个在三维空间中的平面。

（12）输入向量空间

（13）输出向量空间

图（13）中蓝色区域就是图（12）的向量空间经过该矩阵后变换的结果(只标注出了第一象限),所以当矩阵 $\mathbf{A}$ 右乘一个二维列向量时，会将该向量变换到三维空间中的一个平面上,而这个平面则由矩阵的两个列向量张成 (如图13)，下面则是相关的变换公式： $\begin{bmatrix}x_1\\y_1\\z_1\\\end{bmatrix}= x\begin{bmatrix}1\\2\\3\\\end{bmatrix}+ y\begin{bmatrix}2\\3\\1\\\end{bmatrix}= \begin{bmatrix}1&2\\2&3\\3&1\\\end{bmatrix} \begin{bmatrix}x\\y\\\end{bmatrix}\tag{8}$

第二种列数大于行数的矩阵,即形如 $\mathbf{B}$ 的矩阵，经过上面的探讨我们很容易知道该矩阵右乘列向量的作用，是将一个三维空间的向量变换到一个二维空间中，通过前几节的讨论我们也知道，要想考虑整个向量空间只需要考虑该空间的基向量就行，我们看看三维空间中的基向量变换到二维空间中的形式。

（14）输入向量空间

（15）输出向量空间

上图中输入空间的三维向量全部被矩阵 $\mathbf{B}$ 对应的变换给映射到了二维的输出空间中。可以看到三维空间中的三个基向量都被变挤压到了二维平面中,变换的式子如下： $\begin{bmatrix}x_1\\y_1\\\end{bmatrix}= x\begin{bmatrix}1\\3\\\end{bmatrix}+ y\begin{bmatrix}2\\2\\\end{bmatrix}+ z\begin{bmatrix}3\\1\\\end{bmatrix}= \begin{bmatrix}1&2&3\\3&2&1\\\end{bmatrix} \begin{bmatrix}x\\y\\z\\\end{bmatrix}\tag{9}$ 其中向量 $\begin{bmatrix}x_1\\y_1\\\end{bmatrix}$ 表式输出向量， $\begin{bmatrix}x\\y\\z\\\end{bmatrix}$ 为输入向量,总的来说非方阵表式的是维数不同的输入空间和输出空间之间向量的变换。

矩阵与方程

方程组与矩阵有什么关系？

我们知道一个矩阵和向量的运算可以写为如下形式，

$\begin{bmatrix}a\\b\\c\\\end{bmatrix}= \begin{bmatrix}1&2&1\\4&2&1\\3&1&2\\\end{bmatrix} \begin{bmatrix}x\\y\\z\\\end{bmatrix} = x\begin{bmatrix}1\\4\\3\\\end{bmatrix}+ y\begin{bmatrix}2\\2\\1\\\end{bmatrix}+ z\begin{bmatrix}1\\1\\2\\\end{bmatrix}\tag{10}$ 我们也知道其中向量 $\begin{bmatrix}a\\b\\c\\\end{bmatrix}$ 是输出向量,而向量 $\begin{bmatrix}x\\y\\z\\\end{bmatrix}$ 是输入向量。我们稍微改写一下式子 (10)的后半部分便可以得到： $\begin{bmatrix}a\\b\\c\\\end{bmatrix}= x\begin{bmatrix}1\\4\\3\\\end{bmatrix}+ y\begin{bmatrix}2\\2\\1\\\end{bmatrix}+ z\begin{bmatrix}1\\1\\2\\\end{bmatrix} \Leftrightarrow \begin{cases} a&=x+2y+z\\ b&=4x+2y+z\\ c&=3x+y+2z \end{cases} \tag{11}$ 式子 (11)表明了矩阵和方程组之间的关系,也给我们提供了一个新的角度去理解线性方程组,我们可以将方程组看做和矩阵一样的变换或者说多输入多输出的线性函数。很容易想到，工程中很少遇到单纯的一维线性函数 (即 $y=ax+b$ )更多的是多输入多输出的，这时候就需要用到方程组而再次抽象便可以直接用矩阵的方法简化整个过程。

列空间和零空间是什么？

以矩阵 $\mathbf{A}=\begin{bmatrix}1&2\\2&3\\3&1\\\end{bmatrix}$ 为例子将该矩阵对应的方程写为 $\vec{v}=\mathbf{A}\vec{x}\tag{12}$ 其中 $\vec{x}=\begin{bmatrix}x\\y\\\end{bmatrix}$ 为输入向量， $\vec{v}=\begin{bmatrix}x_1\\y_1\\z_1\\\end{bmatrix}$ 为输出向量。

（16）输入向量空间

（17）输出向量空间

在这个方程中，我们将输出向量所构成的空间叫做列空间，即矩阵 $\mathbf{A}$ 的列向量所张成的空间。图 (17)中蓝色部分就是该矩阵所对应的列空间(值标注出了第一象限), 而对于任意矩阵都对应着一个相应的列空间。

接着讨论另一个前面我们提到过的向量 $\mathbf{B}=\begin{bmatrix}1&2&3\\3&2&1\\\end{bmatrix}$ 该矩阵对应的方程如下 $\vec{v}=\mathbf{B}\vec{x}\tag{13}$ 其中 $\vec{x}=\begin{bmatrix}x\\y\\z\\\end{bmatrix}$ 为输入向量， $\vec{v}=\begin{bmatrix}x_1\\y_1\\\end{bmatrix}$ 为输出向量。我们知道矩阵 $\mathbf{B}$ 所对应的变换效果如下图

（18）输入向量空间

（19）输出向量空间

这个矩阵的作用是将一个三维向量空间"拍扁"成一个二维向量空间，在这个过程中必然会导致有一个方向上的向量被压缩到零点（零向量），即为方程 $0=\mathbf{B}\vec{x}$ 的解，这些被"拍扁"到零点的向量组成的集合我们称之为零空间。

秩是什么？

秩为经过一个矩阵变换后空间的维数，即列空间的维数。还是以矩阵 $\mathbf{A}=\begin{bmatrix}1&2\\2&3\\3&1\\\end{bmatrix}$ 为例子,由于矩阵 $\mathbf{A}$ 的列向量张成的向量空间为2维平面,因此这个非方阵的秩为2,虽然他的列向量是三维的，但是张成的空间依旧是个二维平面，输入空间也是二维的，并没有改变向量空间的维度，所以该矩阵满秩（列满秩）。

我们再看矩阵 $\mathbf{B}=\begin{bmatrix}1&2&3\\3&2&1\\\end{bmatrix}$ ,这个矩阵输出空间 (即列向量张成的空间)是二维的所以该矩阵的秩为2,可以看见输入向量是三维向量，而输出向量则是二维向量，该矩阵对向量空间进行了降维，所以该矩阵不满秩（列不满秩）。

或许你会很疑惑，上面所说的列满秩和列不满秩是什么意思，其实我们从矩阵那一章开始就默认选定了列向量为向量空间经过变换后的基坐标，同样我们可以将行向量选择为变换后的基坐标。不过行向量作用于矩阵形式为 $[x_1\quad y_1\quad z_1]=[x \quad y] \begin{bmatrix}1&2&3\\3&2&1\\\end{bmatrix}= x[1 \quad 2 \quad 3]+y[3 \quad 2 \quad 1]\tag{14}$ 其中 $[x\quad y]$ 为输入向量， $[x_1\quad y_1\quad z_1]$ 为输出向量。此时矩阵 $\mathbf{B}$ 行向量张成的向量空间为三维空间中的二维平面，没有改变输入向量的维度，此时我们可以说这个矩阵行满秩。同样矩阵 $\mathbf{A}$ 的对行向量空间的作用是降维的，因此它行不满秩，此外如果一个矩阵既是行满秩也是列满秩则这个矩阵为方阵。

通过上面的讨论我们也很容易知道，一个矩阵可以作用于两种向量，即行向量和列向量。右乘列向量时，矩阵的列表式经过该矩阵变换后向量空间的基向量。左乘行向量时，矩阵的行表式经过该矩阵变换后向量空间的基向量，所以一个矩阵对应着两种不同的向量空间，两个空间的互换主要通过矩阵的转置实现，不过较为常见的依旧是列向量。至于这两个空间存在什么关系我在这里就不深究了，感兴趣的可以去查查资料，或者等我知道了再写篇文章。

矩阵运算

矩阵乘法有什么几何意义？

我们知道，向量乘以一个矩阵的意义，那么两个矩阵相乘呢？还记得最开始提到的 $L$ 函数吗，我们知道他的矩阵形式是 $\begin{bmatrix}0&-1\\1&0\\\end{bmatrix}$ ,作用是将向量空间中的向量逆时针旋转90度,再来看一个叫做剪切矩阵的矩阵，形式为 $\begin{bmatrix}1&1\\0&1\\\end{bmatrix}$ 他对于向量空间的作用如图 (20) (21)所示：

（20）输入向量空间

（21）输出向量空间

那么这两个矩阵相乘是什么意思呢？我们不要忘记矩阵所服务的对象向量！来看下列式子 $\begin{bmatrix}0&-1\\1&0\\\end{bmatrix} \begin{bmatrix}1&1\\0&1\\\end{bmatrix} \begin{bmatrix}x\\y\\\end{bmatrix}= \begin{bmatrix}x_1\\y_1\\\end{bmatrix}\tag{15}$ 上面这个式子我们可以这样来解读，输入向量 $\begin{bmatrix}x\\y\\\end{bmatrix}$ 经过一个剪切变换后成为了一个新的向量，这个新的向量在受到90度旋转矩阵的作用成为了向量 $\begin{bmatrix}x_1\\y_1\\\end{bmatrix}$ 。向量空间经过一个剪切变换,再经过一个90度的逆时针旋转变换后如下图

（22）先剪切后旋转

这个过程实际上就是将空间的所有向量剪切再旋转逆时针旋转90度，同时矩阵的乘法并不满足交换律，这很容易理解，如果先进行一个逆时针90度旋转变换在进行一次剪切变换后的向量空间如下图所示

（23）先旋转后剪切变换

所以矩阵间的乘法是根据向后顺序依次对向量空间进行变换，而变换的先后顺序不同也会导致结果不同。 $\mathbf{AB}\vec{x}=\vec{n}\tag{16}$

而矩阵之间能够相乘所满足的条件为，向量 $\vec{x}$ 经过矩阵 $\mathbf{B}$ 的变换以后所得到的向量必须能够与矩阵 $\mathbf{A}$ 相乘，而一个矩阵能够和一个列向量相乘的前提是向量的维数等于矩阵的列向量的个数,就是说这个向量必然能够在各个基向量的方向上延伸。

行列式有什么几何意义？

我们已经知道了，矩阵的作用是将输入空间的向量映射到输出空间。现在我们思考向量的另一种运算，取行列式，依旧以二维空间为例，该向量空间以 $\imath,\jmath$ 为基向量如下图

（24）输入向量空间

现在我们对这个空间的向量进行线性变换，变换矩阵为 $\begin{bmatrix}2&3\\-2&0\end{bmatrix}$ 变换后向量空间如下图

（25）输出向量空间

现在思考通过什么量来描绘这个变换对于整个输入空间的伸缩程度？答案是面积（图中黄色部分，三维是体积依次类推）！由于变换前以 $\imath, \jmath$ 为两边的正方形面积为1(黄色部分),变换后 $\imath,\jmath$ 围成的面积（黄色部分）便可以作为该变换对于向量空间的压缩程度，而这个面积的值便是方阵取行列式后的值。而其中负值行列式则表示变换将原来的二维平面（的向量）进行了翻转。可把二维平面想象成一张纸，正负值表式不同的面。

同样推广到三维空间，行列式表式的是经过一个三维方阵变换以后的基向量构成的体积，正负则表式三维空间的定向,如图

（26）该空间定向对应的行列式为正

（27）该空间定向对应的行列式为负

图中x和y轴上的基向量经过了一次翻转,但是z轴上的基向量的方向没有变化,此时两个坐标系有不同的定向。当然图 (26)-(27)所表式的是矩阵 $\begin{bmatrix}1&0&0\\0&1&0\\0&0&1\\\end{bmatrix}$ 和矩阵 $\begin{bmatrix}0&1&0\\1&0&0\\0&0&1\\\end{bmatrix}$ 对应的变换。当然对于三维空间来说不止x和y轴上的基向量互换会导致矩阵取行列式后的值为负,任意两个轴上的基向量互换后的行列式值都为负。

逆矩阵对应的几何意义是什么？

以二维的逆时针90度旋转变换为例,该矩阵的逆矩阵即为顺时针90度旋转。

（28）经过90度逆时针旋转矩阵后的向量输出空间

（29）经过逆时针旋转90度矩阵的逆矩阵后的输出向量空间

我们在来对比一下剪切矩阵和逆剪切矩阵的效果：

（30）剪切矩阵作用的效果

（31）逆剪切矩阵的作用效果

很容易想到，一个矩阵对一个向量只有两个影响:向量的长度和角度。如果矩阵 $\mathbf{C}$ 对某向量的作用为，将该向量拉长 $k$ 倍逆时针旋转 $\theta$ 度,则这个矩阵的逆矩阵 $\mathbf{C^{-1}}$ 是将经过矩阵 $C$ 作用后的该向量拉伸 $\frac{1}{k}$ 倍，并顺时针旋转 $\theta$ 度。所以如果这一个矩阵和它的逆矩阵相乘作用于向量空间，则并不会对该空间产生任何影响，通过数学公式表式为： $\mathbf{C^{-1}}\mathbf{C}\vec{v}=\vec{v}$

但有些矩阵并不存在逆矩阵,比如矩阵 $\begin{bmatrix} 1&1\\ -1&-1\\ \end{bmatrix}$ ,它对输入空间的影下如图 (33)

（32）向量输入空间

（33）输出向量空间

可以看到,该变换将输入空间的二维向量压缩到了 $y=-x$ 这条直线上,但是我们并不能找到一个二阶方阵,将和这个条直线上的向量映射到一个二维空间中。如果一个方阵不是满秩的那么这个矩阵就没有相应的逆变换。同样对于非方阵，不管其满秩（行满秩或列满秩）与否，我们也没有办法找到一个有着相反效果的逆变换。

基变换

什么是基变换？

这一章我们将选择一个新的角度去看待矩阵，依旧从二维向量空间开始，在两个二维向量空间中我们选择的两组不同的基向量，如图

（34）向量空间1

（35）向量空间2

向量空间1中我们选择相互垂直且相等的向量 $\imath_{1},\jmath_{1}$ 作为基向量。向量空间2中,选取两个并不相互垂直的向量 $\imath_{2},\jmath_{2}$ 做为向量空间基的向量。然后我们根据基向量来建立坐标系，如图

（36）向量空间1

（37）向量空间2

举个例子来区分这两个坐标系中坐标的差异，在第一个坐标系中向量 $\vec{v}=\begin{bmatrix}-2\\3\\\end{bmatrix}$ 表式 $\imath_{1}$ 反方向拉长2倍, $\jmath_{1}$ 拉长3倍后组合得到的向量,代数形式如下 $\begin{bmatrix}-2\\3\\\end{bmatrix}=-2\imath_{1}+3\jmath_{1}\tag{17}$ 同样在第二个坐标系中向量 $\vec{w}=\begin{bmatrix}-2\\3\\\end{bmatrix}$ ,表式的是 $\imath_{2}$ 反方向拉长2倍, $\jmath_{2}$ 拉长3倍后组合得到的向量,代数形式如下 $\begin{bmatrix}-2\\3\\\end{bmatrix}=-2\imath_{2}+3\jmath_{2}\tag{18}$ 这两个向量拥有相同的坐标形式但是他们并不相等，如下图所示：

(38)向量空间1中的v

（39）向量空间2中的w

而所谓的基变换就是描述同一个向量在这种由不同的基向量所建立的坐标体系中的坐标形式的变换。比如在向量空间2中向量 $\vec{w}=\begin{bmatrix}-2\\3\\\end{bmatrix}$ 在第向量空间1中该用什么坐标形式表式呢?

思路很简单，我们知道任意向量都可以表示成其所在空间基向量的线性组合，所以我们只要将向量空间2的基向量移到向量空间1中,通过向量空间1中的坐标表式向量空间2中的基向量,就能够表式 $\vec{w}$ 在向量空间1中的形式。

（40）将向量空间2的基向量移到向量空间1中

（41）通过i2和j2张成向量w

通过观察我们容易知道向量空间2的基坐向量在向量空间1中的形式为 $\imath_{2}=\begin{bmatrix}1\\2\\\end{bmatrix}, \jmath_{2}=\begin{bmatrix}2\\1\\\end{bmatrix}\tag{19}$ 此时我们可以通过 $\imath_{2},\jmath_{2}$ 的伸缩来表式向量空间2中的 $\vec{w}$ 在向量空间1中的向量形式,代数形式如下 $\vec{w}=-2\imath_{2}+3\jmath_{2}= -2\begin{bmatrix}1\\2\\\end{bmatrix} +3\begin{bmatrix}2\\1\\\end{bmatrix}= \begin{bmatrix}1&2\\2&1\\\end{bmatrix} \begin{bmatrix}-2\\3\\\end{bmatrix}= \begin{bmatrix}4\\-1\\\end{bmatrix}\tag{20}$ 这里矩阵的列很显然并不是表式经过某个变换后的列向量，而是另一个向量空间的基向量在该向量空间中的形式。在这个矩阵 $\begin{bmatrix}1&2\\2&1\\\end{bmatrix}$ 对向量 $\vec{w}$ 的作用中并没有改变向量的角度和长度，只是改变了衡量向量的坐标系。

当然如果是想知道向量空间1中的向量 $\vec{v}=\begin{bmatrix}-2\\3\\\end{bmatrix}$ 在向量空间2中的坐标系下表现形式我们可以将向量空间1中的基向量移到向量空间2中,获得向量空间1的基向量在向量空间2中坐标系中的表达式,如图：

（42）向量空间1中的v和基坐标移到向量空间2中

就可以通过基向量张成目标向量的,而两个基坐标 $\imath_{1},\jmath_{1}$ 在向量空间2中的表式的值就是矩阵 $\begin{bmatrix}1&2\\2&1\\\end{bmatrix}$ 的逆的列向量。其实无论是基变换，还是矩阵对于向量空间的变换本质都是一样的。区别就是基变换多了一个新的坐标系，让我找到一个新的角度。基变换可以看成在对一个空间进行矩阵变换的时，矩阵变换作用于坐标轴后的情形，虽然经过了变换向量变了但是坐标描述依旧没变。

基变换有什么作用？

很显然对于上面基变换中的矩阵和我们一开始所描述的矩阵的角度并不相同，如图

（43）矩阵变换输入向量空间

（44）矩阵变换输出向量空间

（45）基变换向量空间1

（46）基变换向量空间2

这是两组坐标系,第一组图 (43)-(44)表式矩阵变换（将输入空间的向量变换到输出空间中）, 第二组图 (45)-(46)表式基变换 (将向量空间2中的向量变为向量空间1中的坐标的形式)在第一组坐标中该变换对应的矩阵 $\begin{bmatrix}1&2\\2&1\\\end{bmatrix}$ 的列表式的是基向量所经过这个矩阵变换后的坐标形式，这个过程始终用同一个坐标系来度量，该矩阵所乘以的向量是输入空间中的向量。在第二组中两个向量空间的基向量不同,因此根据基向量建立的坐标系也并不相同,矩阵 $\begin{bmatrix}1&2\\2&1\\\end{bmatrix}$ 的列向量表式的是向量空间2中坐标系的基向量在向量空间1的坐标系下的样子,作用的向量是2坐标系描述下的向量。

从上面的讨论我们知道有两种方式看待一个矩阵，第一种是类似于一个函数一样的映射，第二种是将依靠不同基向量建立的坐标系的向量通过另一个坐标系来描述。那么我们为什么要将一个向量的坐标变来变去呢？下面是一个例子我们可以思考如何将向量空间2中的向量 $\vec{v}=\begin{bmatrix}-2\\3\\\end{bmatrix}$ 给逆时针旋转90度?

（47）向量空间2中的向量v

很显然不能直接乘以我们前面提到的逆时针旋转90度矩阵 $\begin{bmatrix}0&-1\\1&0\\\end{bmatrix}$ ，如果直让这个矩阵作用于向量空间，旋转的角度不是90度而是和基向量所成夹角互补的角度，那我们该这么做？

方法很简单,将向量 $\vec{v}$ 移到一个有直角坐标的向量空间中,然后在乘以一个逆时针90度的旋转变换,在移回了就行了。过程如下图

（48）将向量v从向量空间2中移到向量空间1中

（49）通过逆时针90度旋转矩阵作用后的向量v

（50）将v移回向量空间2中

上面这个过程通过代数式表式为： $\begin{bmatrix}x\\y\\\end{bmatrix}= \begin{bmatrix}1&2\\2&1\\\end{bmatrix}^{-1} \begin{bmatrix}0&-1\\1&0\\\end{bmatrix} \begin{bmatrix}1&2\\2&1\\\end{bmatrix} \vec{v}\tag{21}$ 向量 $\vec{v}$ 经过矩阵 $\begin{bmatrix}1&2\\2&1\\\end{bmatrix}$ 的基变换作用被移到向量空间1中,然后乘以一逆时针90度的旋转矩阵 $\begin{bmatrix}0&-1\\1&0\\\end{bmatrix}$ ,逆时针旋转90度,最后通过 $\begin{bmatrix}1&2\\2&1\\\end{bmatrix}^{-1}$ 将向量变换到原来的基向量空间。上面这种基变换矩阵的形式是十分常见的,我们设 $\mathbf{A}=\begin{bmatrix}1&2\\2&1\\\end{bmatrix}$ , $\mathbf{B}=\begin{bmatrix}0&-1\\1&0\\\end{bmatrix}$ 上面等式(21)就可以写为 $\vec{x}=\mathbf{A}^{-1}\mathbf{B}\mathbf{A}\vec{v}\tag{22}$ 而形如 $\mathbf{A}^{-1}\mathbf{B}\mathbf{A}$ 这种类型的矩阵组合十分常见。

特征值和特征向量

特征值和特征向量有什么几何意义？

再次回顾一下矩阵变换对于向量产生什么样的效果？就是输入向量该如何才能得到输出向量？如果你还没有忘记的话，矩阵作用于一个向量后会将其拉伸并旋转变为另一个向量，那么对于一个矩阵有么有这么一种向量对他的作用只有拉伸而没有旋转呢？有的！这中就是我们所说的特征向量，而特征值就是矩阵对于这种向量的拉伸长度。依旧以二维平面为例，我们找一个矩阵 $\mathbf{A}=\begin{bmatrix} 1&2\\2&1\\ \end{bmatrix}$ ,这是我们的老熟阵了,输入向量空间和变换后的输出向量空间如下图(51)- (52)。

（51）输入向量空间

（52）输出向量空间

可以看到向量 $\vec{a}$ 和向量 $\vec{b}$ 这两个向量，在经过矩阵 $\mathbf{A}=\begin{bmatrix}1&2\\2&1\\\end{bmatrix}$ 变换作用后改变了长度，并没有对向量进行任何旋转，你可能会说紫色的向量 $\vec{b}$ 被旋转了180度,我们换个角度，它其实只是被拉伸了-1倍而已,并没有对其进行旋转作用。与此同时和这两个向量在同一条直线上的向量都并没有被旋转角度，因此这两个向量所在直线上的向量都是矩阵 $\mathbf{A}$ 的特征向量。

通过对比变换前后的向量 $\vec{a}$ 和向量 $\vec{b}$ ,明显向量 $\vec{a}$ 被拉伸了3倍,而向量 $\vec{b}$ 则被拉伸了-1倍。因此特征向量 $\vec{a}$ 的特征值 $\gamma_1=3$ ,向量 $\vec{b}$ 的特征值 $\gamma_2=-1$ 。当然和向量 $\vec{a}$ 在同一条直线上的向量同样被拉长了3倍,而和向量 $\vec{b}$ 在同一条直线上的向量同样被拉长了-1倍,这也是为什么一个特征向量只对应一个特征值，但一个特征值却可以对应多个特征向量的原因。

知道了特征值和特征向量的几何意义，一个矩阵的特征值和特征向量的求解也十分简单。假设不知道谁给了我们一个矩阵 $\mathbf{A}$ ,我们假设她的特征向量等于 $\vec{a}$ ,我们知道这个等式成立： $\mathbf{A}\vec{a}=\gamma \vec{a}\\$ 即矩阵 $\mathbf{A}$ 对向量 $\vec{a}$ 仅有 $\gamma$ 倍的拉伸作用，而没有任何旋转影响。我们改写一下这个式子的形式： $\mathbf{A}\vec{a}=\gamma \mathbf{E}\vec{a}\\$ $\gamma \mathbf{E}\vec{a}-\mathbf{A}\vec{a}=\mathbf{0}\\$ $(\gamma \mathbf{E}-\mathbf{A})\vec{a}=\mathbf{0}\\$ （其中 $\mathbf{E}$ 为单位矩阵）到这里我们可以根据求矩阵 $(\gamma \mathbf{E}-\mathbf{A})$ 的行列式来求得 $\gamma$ ,在根据 $\gamma$ 求满足上述条件的 $\vec{a}$ 。

特征向量和特征值有什么用？

通过上面的讨论我们知道矩阵 $\mathbf{A}=\begin{bmatrix}1&2\\2&1\\\end{bmatrix}$ 的一对特征向量为 $\vec{a},\vec{b}$ , 我以这两个特征向量创造一个新的矩阵 $\mathbf{P}=\begin{bmatrix}1&1\\1&-1\\\end{bmatrix}$ ,矩阵 $\mathbf{P}$ 的列向量便是便是特征向量 $\vec{a},\vec{b}$ ,其中 $\vec{a}=\begin{bmatrix}1\\1\\\end{bmatrix}$ , $\vec{b}=\begin{bmatrix}1\\-1\\\end{bmatrix}$ 。下面我们来看看这个式子是什么意思？ $P^{-1}AP\vec{x}=\Lambda\vec{x}\tag{22}$ 这个式子的意思就是将以向量 $\vec{a}$ 和 $\vec{b}$ 为基向量的空间中的向量 $\vec{x}$ 移到以向量 $\begin{bmatrix}1\\0\\\end{bmatrix},\begin{bmatrix}0\\1\\\end{bmatrix}$ 为基向量的空间中对其进行 $\mathbf{A}$ 矩阵变换后在将其移到以向量 $\vec{a}$ 和 $\vec{b}$ 为基向量的空间中。而这个过程的作用效果等于一个对角矩阵 $\Lambda$ 作用于向量 $\vec{x}$ (对角矩阵是形如 $\begin{bmatrix}a_1&0\\0&a_2\\\end{bmatrix}$ 类型第矩阵，表式只对空间中的基向量进行拉伸，而不进行角度变换。) 这个过程如下图所示：

（53）以a，b为基向量建立的向量空间2

（54）将a，b向量移到直角向量空间1中

（55）对向量空间1中的a，b向量进行A矩阵变换

（56）将变换后的a，b向量移回向量空间2中

由于任何向量空间2中的向量都可以通过基向量张成,所以在这里我们只看这个过程中对向量空间2中基向量的影响,首先向量空间2中的基向量为矩阵 $\mathbf{A}=\begin{bmatrix}1&2\\2&1\\\end{bmatrix}$ 的特征向量 $\vec{a}$ 和 $\vec{b}$ ，通过矩阵 $\mathbf{P}=\begin{bmatrix}1&1\\1&-1\\\end{bmatrix}$ 可以将矩阵移到向量空间1中,然后在通过矩阵 $\mathbf{A}$ 的变换得到图(55)所示的结果，接着通过 $\mathbf{P}^{-1}$ 将这两个向量移回空间2中,可以看到这一堆矩阵 $P^{-1}AP$ 对于向量空间2中的基向量只有拉伸而没有旋转的作用,所以对向量空间2中的向量 $\vec{x}$ 的作用等效于一个对角矩阵。

你可能会疑惑我们怎么知道这一堆矩阵 $P^{-1}AP$ 所作用的向量是属于哪一个向量空间呢？说实话，只要看到这一堆矩阵我们就直接认定他们所作用的这个向量是属于 $\mathbf{P}$ 的列所张成的空间，毕竟这是从基变换的角度去看待矩阵的作用。

等价矩阵

等价矩阵有什么几何意义？

先不管所谓的等价矩阵是什么，回顾上一节最后的式子 (22) $P^{-1}AP\vec{x}=\Lambda\vec{x}$ 。我们知道 $\mathbf{P}$ 的列向量表示的是 $\mathbf{A}$ 矩阵特征向量组成的基向量，一个向量 $\vec{x}$ 乘以该矩阵表式将在 $\mathbf{P}$ 的列张成的向量空间中将向量 $\vec{x}$ 移到以标准的向量空间中 (标准的直角坐标系的向量空间)。

因此我们可以称 $\mathbf{P}$ 列向量张成的空间为输入空间（其列向量称为入口基）,即向量 $\vec{x}$ 原来所在的空间。同时矩阵 $\mathbf{P}^{-1}$

上一篇：实话说了吧我就是讨厌灰原哀就是气不过凭什么她一个女配晚出场一百多集人气依然能比女主高这么多 ?

下一篇：数学为什么需要证明一些看起来非常直观、明显的东西（比如定理）？

END