《机器学习数学基础》第 3 章的 3.5.2 节中引入了正定矩阵,本文在其基础上,对正定矩阵的有关知识做进一步的深入介绍。

定义

A \pmb{A} A 为一个 n × n n\times n n×n 实对称矩阵,当且仅当对所有 n n n 维非零向量 x \pmb{x} x ,都有:

x T A x > 0 \pmb{x}^{\rm{T}}\pmb{Ax}\gt0 xTAx>0
则称 A \pmb{A} A正定(positive definite);若上述条件为:

x T A x ≥ 0 \pmb{x}^{\rm{T}}\pmb{Ax}\ge0 xTAx0
则称 A \pmb{A} A半正定(positive semidefinite).

分析

在上述关于正定矩阵的定义中,之所以强调 A \pmb{A} A 是实对称矩阵,是因为任何一个实数方阵,都可以表示为一个实对称矩阵与一个反对称矩阵的和,即 A = B + C \pmb{A}=\pmb{B}+\pmb{C} A=B+C (称为卡氏分解),其中:

B = 1 2 ( A + A T ) C = 1 2 ( A − A T ) \begin{split}\pmb{B}=\frac{1}{2}(\pmb{A}+\pmb{A}^{\rm{T}})\\\pmb{C}=\frac{1}{2}(\pmb{A}-\pmb{A}^{\rm{T}}) \end{split} B=21(A+AT)C=21(AAT)
计算可验证: B = B T \pmb{B}=\pmb{B}^{\rm{T}} B=BT C = − C T \pmb{C}=-\pmb{C}^{\rm{T}} C=CT 。所以, B \pmb{B} B 是对称矩阵, C \pmb{C} C 是反对称矩阵(反对称矩阵,也称为“斜对称矩阵” [ 2 ] ^{[2]} [2])。

考虑:

x T A x = x T ( B + C ) x = x T B x + x T C x \pmb{x}^{\rm{T}}\pmb{Ax}=\pmb{x}^{\rm{T}}(\pmb{B}+\pmb{C})\pmb{x}=\pmb{x}^{\rm{T}}\pmb{Bx}+\pmb{x}^{\rm{T}}\pmb{Cx} xTAx=xT(B+C)x=xTBx+xTCx
因为:

x T C x = ( x T C x ) T = x T C T x = − x T C x \pmb{x}^{\rm{T}}\pmb{Cx}=(\pmb{x}^{\rm{T}}\pmb{Cx})^{\rm{T}}=\pmb{x}^{\rm{T}}\pmb{C}^{\rm{T}}\pmb{x}=-\pmb{x}^{\rm{T}}\pmb{Cx} xTCx=(xTCx)T=xTCTx=xTCx
x T C x = 0 \pmb{x}^{\rm{T}}\pmb{Cx} = 0 xTCx=0 ,因此

x T A x = x T B x \pmb{x}^{\rm{T}}\pmb{Ax}=\pmb{x}^{\rm{T}}\pmb{Bx} xTAx=xTBx
即二次型 x T A x \pmb{x}^{\rm{T}}\pmb{Ax} xTAx 可用对称部分表示。

几何意义

  • n = 1 n=1 n=1 ,则矩阵 A \pmb{A} A 和向量 x \pmb{x} x 都退化为标量 a 、 x a、x ax ,对任意非零的 x x x ,有: x a x = a x 2 > 0 xax=ax^2\gt0 xax=ax2>0

    显然 a a a 是正数,完整地说, a a a 是正定的。

  • n > 1 n\gt1 n>1 A x \pmb{Ax} Ax x \pmb{x} x 之间的夹角 θ \theta θ 的余弦为 cos ⁡ θ = x T ( A x ) ∥ x ∥ ∥ A x ∥ \cos\theta = \frac{\pmb{x}^{\rm{T}}(\pmb{Ax})}{\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{Ax}\end{Vmatrix}} cosθ=xAxxT(Ax)

    A x \pmb{Ax} Ax x \pmb{x} x 点积为正值,则 θ < 90 ° \theta \lt 90° θ<90° ,如下图所示, x \pmb{x} x 为超平面 P P P 的法向量,正定矩阵 A \pmb{A} A 保证变换后的向量 A x \pmb{Ax} Ax 与原向量 x \pmb{x} x 都位于超平面 P P P 的同一侧。

    在这里插入图片描述

对称正定矩阵的对角化形式 A = Q Λ Q − 1 \pmb{A}=\pmb{Q\Lambda Q}^{\rm{-1}} A=QΛQ1 的几何解释:

  • A ∼ Λ \pmb{A}\sim\pmb{\Lambda} AΛ A \pmb{A} A 参考有序基 { q 1 , ⋯   , q n } \{\pmb{q}_1,\cdots,\pmb{q}_n\} {q1,,qn} 的变换矩阵即为对角矩阵 Λ \pmb{\Lambda} Λ 。由于每个主对角元素都大于零,对称正定矩阵具有分别拉伸各主轴(即特征向量方向)的功能,而伸缩量即为特征值。
  • 还可以认为连续执行了三个线性变换:
    1. Q − 1 \pmb{Q}^{-1} Q1 :旋转变换
    2. Λ \pmb{\Lambda} Λ:拉伸变换
    3. Q \pmb{Q} Q :逆旋转变换

定理

A \pmb{A} A 是一个实对称正定矩阵,则 A \pmb{A} A 的特征值皆为正,反之亦然。

证明

(1) A \pmb{A} A 是实对称正定矩阵,令 A = Q Λ Q T \pmb{A}=\pmb{Q\Lambda Q}^{\rm{T}} A=QΛQT ,其中 Λ = d i a g ( λ 1 , ⋯   , λ n ) \pmb{\Lambda} = \rm{diag}(\lambda_1,\cdots,\lambda_n) Λ=diag(λ1,,λn) λ i \lambda_i λi A \pmb{A} A 的特征值。

Q = [ q 1 ⋯ q n ] \pmb{Q}=\begin{bmatrix}\pmb{q}_1&\cdots&\pmb{q}_n\end{bmatrix} Q=[q1qn] 的所有列都是单范正交特征向量。

因为 A \pmb{A} A 正定,所以:

q i T A q i = q i T ( λ i q i ) = λ i ( q i T q i ) = λ i > 0 \pmb{q}_i^{\rm{T}}\pmb{Aq}_i=\pmb{q}_i^{\rm{T}}(\lambda_i\pmb{q}_i)=\lambda_i(\pmb{q}_i^{\rm{T}}\pmb{q}_i)=\lambda_i\gt0 qiTAqi=qiT(λiqi)=λi(qiTqi)=λi>0
(2)设 λ i > 0 , ( i = 1 , ⋯   , n ) \lambda_i\gt0,(i=1,\cdots,n) λi>0,(i=1,,n) 。令 y = Q T x = Q − 1 x \pmb{y}=\pmb{Q}^{\rm{T}}\pmb{x}=\pmb{Q}^{-1}\pmb{x} y=QTx=Q1x 。因为 x = Q y \pmb{x} = \pmb{Qy} x=Qy y \pmb{y} y 必定为非零向量,则:

x T A x = x T Q Λ Q T x = y T Λ y = λ 1 y 1 2 + ⋯ + λ n y n 2 > 0 \pmb{x}^{\rm{T}}\pmb{Ax}=\pmb{x}^{\rm{T}}\pmb{Q\Lambda Q}^{\rm{T}}\pmb{x}=\pmb{y}^{\rm{T}}\pmb{\Lambda y}=\lambda_1y_1^2+\cdots+\lambda_ny_n^2\gt0 xTAx=xTQΛQTx=yTΛy=λ1y12++λnyn2>0

性质

  • 性质1:正定矩阵的每一个主子阵都是正定的

证明

为了证明此性质,首先引入一种符号记法。

S S S { 1 , 2 , ⋯   , n } \{1,2,\cdots,n \} {1,2,,n} 的子集, S c S^{\rm{c}} Sc 表示 S S S 的补集, ∣ S ∣ |S| S 表示集合 S S S 的元素数,称为基数(cardinal number)。对于所有 i ∈ S c i\in S^{\rm{c}} iSc ,将 n × n n\times n n×n 阶矩阵 A \pmb{A} A 的第 i i i 行与第 i i i 列同时删除,可得到一个 ∣ S ∣ × ∣ S ∣ |S|\times |S| S×S 阶主子阵(principal submatrix),以 A S \pmb{A}_S AS 表示。例如:

A = [ 5 − 1 3 − 1 − 1 2 − 2 − 1 3 − 2 3 1 − 1 − 1 1 6 ] \pmb{A}=\begin{bmatrix}5&-1&3&-1\\-1&2&-2&-1\\3&-2&3&1\\-1&-1&1&6\end{bmatrix} A= 5131122132311116
下面几个都是主子阵:

A { 1 , 3 , 4 } = [ 5 3 − 1 3 3 1 − 1 1 6 ] , A { 2 , 4 } = [ 2 − 1 − 1 6 ] A { 3 } = [ 3 ] \pmb{A}_{\{1,3,4\}}=\begin{bmatrix}5&3&-1\\3&3&1\\-1&1&6\end{bmatrix},\quad \pmb{A}_{\{2,4\}}=\begin{bmatrix}2&-1\\-1&6\end{bmatrix}\quad\pmb{A}_{\{3\}}=\begin{bmatrix}3\end{bmatrix} A{1,3,4}= 531331116 ,A{2,4}=[2116]A{3}=[3]
对于向量 x ∈ R n \pmb{x}\in\mathbb{R}^n xRn ,用 x S \pmb{x}_{S} xS 表示删除了 S S S 的补集元素后得到的向量,显然 x S \pmb{x}_S xS ∣ S ∣ |S| S 维向量。

对于任何 k ∈ S c k\in S^{\rm{c}} kSc ,令 x \pmb{x} x 的第 k k k 个元为零,则:

x S T A S x S = x T A x > 0 \pmb{x}_S^{\rm{T}}\pmb{A}_S\pmb{x}_S=\pmb{x}^{\rm{T}}\pmb{Ax}\gt0 xSTASxS=xTAx>0
由于 x S ≠ 0 \pmb{x}_S\ne0 xS=0 是任意的,所以 A S \pmb{A}_S AS 是正定的。

  • 性质2:正定矩阵的特征值皆为正数

证明

λ \lambda λ 为正定矩阵 A \pmb{A} A 的一个特征值,对于特征向量 x ≠ 0 \pmb{x}\ne0 x=0 ,则:

x T A x = x T λ x = λ x T x \pmb{x}^{\rm{T}}\pmb{Ax}=\pmb{x}^{\rm{T}}\lambda\pmb{x}=\lambda\pmb{x}^{\rm{T}}\pmb{x} xTAx=xTλx=λxTx
则: λ = x T A x x T x \lambda=\frac{\pmb{x}^{\rm{T}}\pmb{Ax}}{\pmb{x}^{\rm{T}}\pmb{x}} λ=xTxxTAx ,分子分母都是正数,故 λ > 0 \lambda\gt0 λ>0

拓展

由性质2可知:设 λ i > 0 \lambda_i\gt0 λi>0 是正定矩阵 A \pmb{A} A 的特征值,则 A \pmb{A} A 可逆, A − 1 \pmb{A}^{-1} A1 A T \pmb{A}^{\rm{T}} AT 也是正定矩阵,且:

d e t A = λ 1 λ 2 ⋯ λ n > 0 t r a c e A = λ 1 + λ 2 + ⋯ + λ n > 0 \begin{split}\rm{det}\pmb{A}&=\lambda_1\lambda_2\cdots\lambda_n\gt0\\\rm{trace}\pmb{A}&=\lambda_1+\lambda_2+\cdots+\lambda_n\gt0\end{split} detAtraceA=λ1λ2λn>0=λ1+λ2++λn>0
结合性质1,每个主子阵 A S \pmb{A}_S AS 亦有类似性质。

  • 性质3:正定矩阵的主元(pivot)都是正数
  • 性质4:正定矩阵 A \pmb{A} A 可以表示为 A = B T B \pmb{A}=\pmb{B}^{\rm{T}}\pmb{B} A=BTB B \pmb{B} B 是一个可逆矩阵

判别

  • n × n n\times n n×n 矩阵 A \pmb{A} A 的特征值都是正数,则 A \pmb{A} A 是正定矩阵
  • n × n n\times n n×n 矩阵 A \pmb{A} A 的轴(主元)都是正数,则 A \pmb{A} A 是正定矩阵
  • n × n n\times n n×n 矩阵 A \pmb{A} A 的领先主子阵的行列式都是正数,则 A \pmb{A} A 是正定矩阵
  • n × n n\times n n×n 矩阵 A \pmb{A} A 可表示为 A = B T B \pmb{A}=\pmb{B}^{\rm{T}}\pmb{B} A=BTB B \pmb{B} B 是一个可逆矩阵,则 A \pmb{A} A 是正定矩阵

参考文献

[1]. 特殊矩阵-六:正定矩阵

[2]. 反对称矩阵:指满足 A T = − A \pmb{A}^{\text{T}}=-\pmb{A} AT=A 的矩阵,或者,对于矩阵 A = ( a i j ) \pmb{A}=(a_{ij}) A=(aij) ,各元素的关系为 a i j = − a j i a_{ij}=-a{ji} aij=aji ,例如下面的矩阵就是一个反对称矩阵:

[ 0 2 − 1 − 2 0 − 4 1 4 0 ] \begin{bmatrix}0&2&-1\\-2&0&-4\\1&4&0\end{bmatrix} 021204140

反对称矩阵特性:

  • 反对称矩阵自身相乘的积是对称矩阵
  • 对任意矩阵 A \pmb{A} A A T − A \pmb{A}^{\text{T}}-\pmb{A} ATA 是反对称矩阵
  • A \pmb{A} A 是反对称矩阵, x \pmb{x} x 是向量,则 x T A x = 0 \pmb{x}^{\text{T}}\pmb{Ax}=0 xTAx=0
  • 反对称矩阵的主对角线匀速必是零,所以其迹为零
Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐