《机器学习数学基础》补充资料:正定矩阵
补充关于“正定矩阵”的资料
在《机器学习数学基础》第 3 章的 3.5.2 节中引入了正定矩阵,本文在其基础上,对正定矩阵的有关知识做进一步的深入介绍。
定义
令 A \pmb{A} A 为一个 n × n n\times n n×n 实对称矩阵,当且仅当对所有 n n n 维非零向量 x \pmb{x} x ,都有:
x T A x > 0 \pmb{x}^{\rm{T}}\pmb{Ax}\gt0 xTAx>0
则称 A \pmb{A} A 为正定(positive definite);若上述条件为:
x T A x ≥ 0 \pmb{x}^{\rm{T}}\pmb{Ax}\ge0 xTAx≥0
则称 A \pmb{A} A 为半正定(positive semidefinite).
分析
在上述关于正定矩阵的定义中,之所以强调 A \pmb{A} A 是实对称矩阵,是因为任何一个实数方阵,都可以表示为一个实对称矩阵与一个反对称矩阵的和,即 A = B + C \pmb{A}=\pmb{B}+\pmb{C} A=B+C (称为卡氏分解),其中:
B = 1 2 ( A + A T ) C = 1 2 ( A − A T ) \begin{split}\pmb{B}=\frac{1}{2}(\pmb{A}+\pmb{A}^{\rm{T}})\\\pmb{C}=\frac{1}{2}(\pmb{A}-\pmb{A}^{\rm{T}}) \end{split} B=21(A+AT)C=21(A−AT)
计算可验证: B = B T \pmb{B}=\pmb{B}^{\rm{T}} B=BT 、 C = − C T \pmb{C}=-\pmb{C}^{\rm{T}} C=−CT 。所以, B \pmb{B} B 是对称矩阵, C \pmb{C} C 是反对称矩阵(反对称矩阵,也称为“斜对称矩阵” [ 2 ] ^{[2]} [2])。
考虑:
x T A x = x T ( B + C ) x = x T B x + x T C x \pmb{x}^{\rm{T}}\pmb{Ax}=\pmb{x}^{\rm{T}}(\pmb{B}+\pmb{C})\pmb{x}=\pmb{x}^{\rm{T}}\pmb{Bx}+\pmb{x}^{\rm{T}}\pmb{Cx} xTAx=xT(B+C)x=xTBx+xTCx
因为:
x T C x = ( x T C x ) T = x T C T x = − x T C x \pmb{x}^{\rm{T}}\pmb{Cx}=(\pmb{x}^{\rm{T}}\pmb{Cx})^{\rm{T}}=\pmb{x}^{\rm{T}}\pmb{C}^{\rm{T}}\pmb{x}=-\pmb{x}^{\rm{T}}\pmb{Cx} xTCx=(xTCx)T=xTCTx=−xTCx
故 x T C x = 0 \pmb{x}^{\rm{T}}\pmb{Cx} = 0 xTCx=0 ,因此
x T A x = x T B x \pmb{x}^{\rm{T}}\pmb{Ax}=\pmb{x}^{\rm{T}}\pmb{Bx} xTAx=xTBx
即二次型 x T A x \pmb{x}^{\rm{T}}\pmb{Ax} xTAx 可用对称部分表示。
几何意义
-
若 n = 1 n=1 n=1 ,则矩阵 A \pmb{A} A 和向量 x \pmb{x} x 都退化为标量 a 、 x a、x a、x ,对任意非零的 x x x ,有: x a x = a x 2 > 0 xax=ax^2\gt0 xax=ax2>0 。
显然 a a a 是正数,完整地说, a a a 是正定的。
-
若 n > 1 n\gt1 n>1 , A x \pmb{Ax} Ax 与 x \pmb{x} x 之间的夹角 θ \theta θ 的余弦为 cos θ = x T ( A x ) ∥ x ∥ ∥ A x ∥ \cos\theta = \frac{\pmb{x}^{\rm{T}}(\pmb{Ax})}{\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{Ax}\end{Vmatrix}} cosθ=∥x∥∥Ax∥xT(Ax) 。
A x \pmb{Ax} Ax 与 x \pmb{x} x 点积为正值,则 θ < 90 ° \theta \lt 90° θ<90° ,如下图所示, x \pmb{x} x 为超平面 P P P 的法向量,正定矩阵 A \pmb{A} A 保证变换后的向量 A x \pmb{Ax} Ax 与原向量 x \pmb{x} x 都位于超平面 P P P 的同一侧。

对称正定矩阵的对角化形式 A = Q Λ Q − 1 \pmb{A}=\pmb{Q\Lambda Q}^{\rm{-1}} A=QΛQ−1 的几何解释:
- A ∼ Λ \pmb{A}\sim\pmb{\Lambda} A∼Λ , A \pmb{A} A 参考有序基 { q 1 , ⋯ , q n } \{\pmb{q}_1,\cdots,\pmb{q}_n\} {q1,⋯,qn} 的变换矩阵即为对角矩阵 Λ \pmb{\Lambda} Λ 。由于每个主对角元素都大于零,对称正定矩阵具有分别拉伸各主轴(即特征向量方向)的功能,而伸缩量即为特征值。
- 还可以认为连续执行了三个线性变换:
- Q − 1 \pmb{Q}^{-1} Q−1 :旋转变换
- Λ \pmb{\Lambda} Λ:拉伸变换
- Q \pmb{Q} Q :逆旋转变换
定理
若 A \pmb{A} A 是一个实对称正定矩阵,则 A \pmb{A} A 的特征值皆为正,反之亦然。
证明
(1) A \pmb{A} A 是实对称正定矩阵,令 A = Q Λ Q T \pmb{A}=\pmb{Q\Lambda Q}^{\rm{T}} A=QΛQT ,其中 Λ = d i a g ( λ 1 , ⋯ , λ n ) \pmb{\Lambda} = \rm{diag}(\lambda_1,\cdots,\lambda_n) Λ=diag(λ1,⋯,λn) , λ i \lambda_i λi 是 A \pmb{A} A 的特征值。
设 Q = [ q 1 ⋯ q n ] \pmb{Q}=\begin{bmatrix}\pmb{q}_1&\cdots&\pmb{q}_n\end{bmatrix} Q=[q1⋯qn] 的所有列都是单范正交特征向量。
因为 A \pmb{A} A 正定,所以:
q i T A q i = q i T ( λ i q i ) = λ i ( q i T q i ) = λ i > 0 \pmb{q}_i^{\rm{T}}\pmb{Aq}_i=\pmb{q}_i^{\rm{T}}(\lambda_i\pmb{q}_i)=\lambda_i(\pmb{q}_i^{\rm{T}}\pmb{q}_i)=\lambda_i\gt0 qiTAqi=qiT(λiqi)=λi(qiTqi)=λi>0
(2)设 λ i > 0 , ( i = 1 , ⋯ , n ) \lambda_i\gt0,(i=1,\cdots,n) λi>0,(i=1,⋯,n) 。令 y = Q T x = Q − 1 x \pmb{y}=\pmb{Q}^{\rm{T}}\pmb{x}=\pmb{Q}^{-1}\pmb{x} y=QTx=Q−1x 。因为 x = Q y \pmb{x} = \pmb{Qy} x=Qy , y \pmb{y} y 必定为非零向量,则:
x T A x = x T Q Λ Q T x = y T Λ y = λ 1 y 1 2 + ⋯ + λ n y n 2 > 0 \pmb{x}^{\rm{T}}\pmb{Ax}=\pmb{x}^{\rm{T}}\pmb{Q\Lambda Q}^{\rm{T}}\pmb{x}=\pmb{y}^{\rm{T}}\pmb{\Lambda y}=\lambda_1y_1^2+\cdots+\lambda_ny_n^2\gt0 xTAx=xTQΛQTx=yTΛy=λ1y12+⋯+λnyn2>0
性质
- 性质1:正定矩阵的每一个主子阵都是正定的
证明
为了证明此性质,首先引入一种符号记法。
令 S S S 为 { 1 , 2 , ⋯ , n } \{1,2,\cdots,n \} {1,2,⋯,n} 的子集, S c S^{\rm{c}} Sc 表示 S S S 的补集, ∣ S ∣ |S| ∣S∣ 表示集合 S S S 的元素数,称为基数(cardinal number)。对于所有 i ∈ S c i\in S^{\rm{c}} i∈Sc ,将 n × n n\times n n×n 阶矩阵 A \pmb{A} A 的第 i i i 行与第 i i i 列同时删除,可得到一个 ∣ S ∣ × ∣ S ∣ |S|\times |S| ∣S∣×∣S∣ 阶主子阵(principal submatrix),以 A S \pmb{A}_S AS 表示。例如:
A = [ 5 − 1 3 − 1 − 1 2 − 2 − 1 3 − 2 3 1 − 1 − 1 1 6 ] \pmb{A}=\begin{bmatrix}5&-1&3&-1\\-1&2&-2&-1\\3&-2&3&1\\-1&-1&1&6\end{bmatrix} A=
5−13−1−12−2−13−231−1−116
下面几个都是主子阵:
A { 1 , 3 , 4 } = [ 5 3 − 1 3 3 1 − 1 1 6 ] , A { 2 , 4 } = [ 2 − 1 − 1 6 ] A { 3 } = [ 3 ] \pmb{A}_{\{1,3,4\}}=\begin{bmatrix}5&3&-1\\3&3&1\\-1&1&6\end{bmatrix},\quad \pmb{A}_{\{2,4\}}=\begin{bmatrix}2&-1\\-1&6\end{bmatrix}\quad\pmb{A}_{\{3\}}=\begin{bmatrix}3\end{bmatrix} A{1,3,4}=
53−1331−116
,A{2,4}=[2−1−16]A{3}=[3]
对于向量 x ∈ R n \pmb{x}\in\mathbb{R}^n x∈Rn ,用 x S \pmb{x}_{S} xS 表示删除了 S S S 的补集元素后得到的向量,显然 x S \pmb{x}_S xS 是 ∣ S ∣ |S| ∣S∣ 维向量。
对于任何 k ∈ S c k\in S^{\rm{c}} k∈Sc ,令 x \pmb{x} x 的第 k k k 个元为零,则:
x S T A S x S = x T A x > 0 \pmb{x}_S^{\rm{T}}\pmb{A}_S\pmb{x}_S=\pmb{x}^{\rm{T}}\pmb{Ax}\gt0 xSTASxS=xTAx>0
由于 x S ≠ 0 \pmb{x}_S\ne0 xS=0 是任意的,所以 A S \pmb{A}_S AS 是正定的。
- 性质2:正定矩阵的特征值皆为正数
证明
设 λ \lambda λ 为正定矩阵 A \pmb{A} A 的一个特征值,对于特征向量 x ≠ 0 \pmb{x}\ne0 x=0 ,则:
x T A x = x T λ x = λ x T x \pmb{x}^{\rm{T}}\pmb{Ax}=\pmb{x}^{\rm{T}}\lambda\pmb{x}=\lambda\pmb{x}^{\rm{T}}\pmb{x} xTAx=xTλx=λxTx
则: λ = x T A x x T x \lambda=\frac{\pmb{x}^{\rm{T}}\pmb{Ax}}{\pmb{x}^{\rm{T}}\pmb{x}} λ=xTxxTAx ,分子分母都是正数,故 λ > 0 \lambda\gt0 λ>0 。
拓展
由性质2可知:设 λ i > 0 \lambda_i\gt0 λi>0 是正定矩阵 A \pmb{A} A 的特征值,则 A \pmb{A} A 可逆, A − 1 \pmb{A}^{-1} A−1 和 A T \pmb{A}^{\rm{T}} AT 也是正定矩阵,且:
d e t A = λ 1 λ 2 ⋯ λ n > 0 t r a c e A = λ 1 + λ 2 + ⋯ + λ n > 0 \begin{split}\rm{det}\pmb{A}&=\lambda_1\lambda_2\cdots\lambda_n\gt0\\\rm{trace}\pmb{A}&=\lambda_1+\lambda_2+\cdots+\lambda_n\gt0\end{split} detAtraceA=λ1λ2⋯λn>0=λ1+λ2+⋯+λn>0
结合性质1,每个主子阵 A S \pmb{A}_S AS 亦有类似性质。
- 性质3:正定矩阵的主元(pivot)都是正数
- 性质4:正定矩阵 A \pmb{A} A 可以表示为 A = B T B \pmb{A}=\pmb{B}^{\rm{T}}\pmb{B} A=BTB , B \pmb{B} B 是一个可逆矩阵
判别
- 若 n × n n\times n n×n 矩阵 A \pmb{A} A 的特征值都是正数,则 A \pmb{A} A 是正定矩阵
- 若 n × n n\times n n×n 矩阵 A \pmb{A} A 的轴(主元)都是正数,则 A \pmb{A} A 是正定矩阵
- 若 n × n n\times n n×n 矩阵 A \pmb{A} A 的领先主子阵的行列式都是正数,则 A \pmb{A} A 是正定矩阵
- 若 n × n n\times n n×n 矩阵 A \pmb{A} A 可表示为 A = B T B \pmb{A}=\pmb{B}^{\rm{T}}\pmb{B} A=BTB , B \pmb{B} B 是一个可逆矩阵,则 A \pmb{A} A 是正定矩阵
参考文献
[1]. 特殊矩阵-六:正定矩阵
[2]. 反对称矩阵:指满足 A T = − A \pmb{A}^{\text{T}}=-\pmb{A} AT=−A 的矩阵,或者,对于矩阵 A = ( a i j ) \pmb{A}=(a_{ij}) A=(aij) ,各元素的关系为 a i j = − a j i a_{ij}=-a{ji} aij=−aji ,例如下面的矩阵就是一个反对称矩阵:
[ 0 2 − 1 − 2 0 − 4 1 4 0 ] \begin{bmatrix}0&2&-1\\-2&0&-4\\1&4&0\end{bmatrix} 0−21204−1−40
反对称矩阵特性:
- 反对称矩阵自身相乘的积是对称矩阵
- 对任意矩阵 A \pmb{A} A , A T − A \pmb{A}^{\text{T}}-\pmb{A} AT−A 是反对称矩阵
- 若 A \pmb{A} A 是反对称矩阵, x \pmb{x} x 是向量,则 x T A x = 0 \pmb{x}^{\text{T}}\pmb{Ax}=0 xTAx=0
- 反对称矩阵的主对角线匀速必是零,所以其迹为零
更多推荐



所有评论(0)