《机器学习数学基础》第1章1.5.3节介绍了向量范数的基本定义。

本文在上述基础上,介绍向量范数的有关性质。

注意: 以下均在欧几里得空间讨论,即欧氏范数。

1. 性质

  • 实(或复)向量 x \pmb{x} x ,范数 ∥ x ∥ \begin{Vmatrix}\pmb{x}\end{Vmatrix} x 满足:

    • ∥ x ∥ ≥ 0 \begin{Vmatrix}\pmb{x}\end{Vmatrix}\ge0 x 0
    • ∥ x ∥ = 0 ⇔ x = 0 \begin{Vmatrix}\pmb{x}\end{Vmatrix}=0 \Leftrightarrow \pmb{x}=\pmb{0} x =0x=0
    • ∥ c x ∥ = ∣ c ∣ ∥ x ∥ \begin{Vmatrix}c\pmb{x}\end{Vmatrix}=|c|\begin{Vmatrix}\pmb{x}\end{Vmatrix} cx =c x c c c 是标量
  • x , y ∈ C n \pmb{x,y}\in\mathbb{C}^n x,yCn ,根据施瓦茨不等式 ∣ x ∗ y ∣ ≤ ∥ x ∥ ∥ y ∥ |\pmb{x}^*\pmb{y}|\le\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix} xy x y

    n = 1 n=1 n=1 ,则上式退化为 ∣ x ‾ y ∣ ≤ ∣ x ∣ ∣ y ∣ |\overline{x}y|\le|x||y| xyx∣∣y ,其中 x , y ∈ C x,y\in\mathbb{C} x,yC 。因为 ∣ x ‾ ∣ = ∣ x ∣ |\overline{x}|=|x| x=x ,所以 ∣ x ‾ y ∣ ≤ ∣ x ‾ ∣ ∣ y ∣ |\overline{x}y|\le|\overline{x}||y| xyx∣∣y

  • 三角不等式: x + y ≤ ∥ x ∥ + ∥ y ∥ \pmb{x}+\pmb{y}\le \begin{Vmatrix}\pmb{x}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix} x+y x + y

    证明

    ∥ x + y ∥ 2 = ( x + y ) ∗ ( x + y ) = x ∗ x + x ∗ y + y ∗ x + y ∗ y = ∥ x ∥ 2 + x ∗ y + y ∗ x + ∥ y ∥ 2 \begin{split}\begin{Vmatrix}\pmb{x}+\pmb{y}\end{Vmatrix}^2 &= (\pmb{x}+\pmb{y})^*(\pmb{x}+\pmb{y})\\ &= \pmb{x}^*\pmb{x}+\pmb{x}^*\pmb{y}+\pmb{y}^*\pmb{x}+\pmb{y}^*\pmb{y}\\&=\begin{Vmatrix}\pmb{x}\end{Vmatrix}^2+\pmb{x}^*\pmb{y}+\pmb{y}^*\pmb{x}+\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2\end{split} x+y 2=(x+y)(x+y)=xx+xy+yx+yy= x 2+xy+yx+ y 2

    根据复数的性质和施瓦茨不等式:

    x ∗ y + y ∗ x = x ∗ y + x ∗ y ‾ = 2 R e ( x ∗ y ) ≤ 2 ∣ x ∗ y ∣ ≤ 2 ∥ x ∥ ∥ y ∥ \pmb{x}^*\pmb{y}+\pmb{y}^*\pmb{x}=\pmb{x}^*\pmb{y}+\overline{\pmb{x}^*\pmb{y}}=2Re(\pmb{x}^*\pmb{y})\le 2|\pmb{x}^*\pmb{y}|\le2\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix} xy+yx=xy+xy=2Re(xy)2∣xy2 x y

    由上述结果,可得:

    ∥ x + y ∥ 2 ≤ ∥ x ∥ 2 + 2 ∥ x ∥ ∥ y ∥ + ∥ y ∥ 2 = ( ∥ x ∥ + ∥ y ∥ ) 2 \begin{Vmatrix}\pmb{x}+\pmb{y}\end{Vmatrix}^2 \le \begin{Vmatrix}\pmb{x}\end{Vmatrix}^2+2\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2=(\begin{Vmatrix}\pmb{x}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix})^2 x+y 2 x 2+2 x y + y 2=( x + y )2

    证毕。

2. 极小范数

m × n m\times n m×n 的矩阵 A \pmb{A} A ,列空间 C ( A ) = { A x ∣ x ∈ R n } C(\pmb{A})=\{\pmb{Ax}|\pmb{x}\in\mathbb{R}^n\} C(A)={AxxRn} C ( A ) C(\pmb{A}) C(A) R m \mathbb{R}^m Rm 的一个子空间),对任一 b ∈ C ( A ) \pmb{b}\in C(\pmb{A}) bC(A) ,线性方程组 A x = b \pmb{Ax}=\pmb{b} Ax=b 有解。在解集合中,有一个特解,在 A \pmb{A} A 的行空间,即 A T \pmb{A}^T AT 的列空间 C ( A T ) C(\pmb{A}^T) C(AT) ,并且具有最小的 l 2 l_2 l2 范数,称为极小范数解(minimum norm solution) [ 1 ] ^{[1]} [1],记作 x + \pmb{x}^+ x+ ,即: x + ∈ C ( A T ) \pmb{x}^+\in C(\pmb{A}^T) x+C(AT) 使得 A x + = b \pmb{Ax}^+=\pmb{b} Ax+=b

2.1 定理一

b ∈ C ( A ) \pmb{b}\in C(\pmb{A}) bC(A) ,则存在唯一的 y ∈ C ( A T ) \pmb{y}\in C(\pmb{A}^T) yC(AT) 使得 A y = b \pmb{Ay}=\pmb{b} Ay=b

证明

设特解 x ∈ R n \pmb{x}\in \mathbb{R}^n xRn 使得 A x = b \pmb{Ax}=\pmb{b} Ax=b

R n \mathbb{R}^n Rn 中, A \pmb{A} A 的列空间 C ( A T ) C(\pmb{A}^T) C(AT) 是零空间 N ( A ) N(\pmb{A}) N(A) 的正交补(参考:矩阵基本子空间 [ 2 ] ^{[2]} [2])。则 x \pmb{x} x 可以分解为 x = y + z \pmb{x}=\pmb{y}+\pmb{z} x=y+z ,其中 y ∈ C ( A T ) , z ∈ N ( A ) \pmb{y}\in C(\pmb{A}^T), \pmb{z}\in N(\pmb{A}) yC(AT),zN(A) ,得:

A x = A ( y + z ) = A y + A z = b \pmb{Ax}=\pmb{A}(\pmb{y}+\pmb{z})=\pmb{Ay}+\pmb{Az}=\pmb{b} Ax=A(y+z)=Ay+Az=b

这说明 y \pmb{y} y 也是一个特解。

y , y ′ ∈ C ( A T ) \pmb{y},\pmb{y}'\in C(\pmb{A}^T) y,yC(AT) 使得 A y = b , A y ′ = b \pmb{Ay}=\pmb{b},\pmb{Ay}'=\pmb{b} Ay=b,Ay=b 。两式子相减: A ( y − y ′ ) = 0 \pmb{A}(\pmb{y}-\pmb{y}')=\pmb{0} A(yy)=0

所以 y − y ′ ∈ N ( A ) \pmb{y}-\pmb{y}'\in N(\pmb{A}) yyN(A)

又因为 y − y ′ ∈ C ( A T ) \pmb{y}-\pmb{y}'\in C(\pmb{A}^T) yyC(AT)

合并以上结果,得:

y − y ′ ∈ N ( A ) ∩ C ( A T ) = { 0 } \pmb{y}-\pmb{y}'\in N(\pmb{A})\cap C(\pmb{A}^T)=\{\pmb{0}\} yyN(A)C(AT)={0}

y = y ′ \pmb{y}=\pmb{y}' y=y y \pmb{y} y 唯一。

证毕。

2.2 定理二

b ∈ C ( A ) \pmb{b}\in C(\pmb{A}) bC(A) y ∈ { x ∣ A x = b } \pmb{y}\in \{\pmb{x}|\pmb{Ax}=\pmb{b}\} y{xAx=b} 具有最小 l 2 l_2 l2 范数,则 y ∈ C ( A T ) \pmb{y}\in C(\pmb{A}^T) yC(AT)

证明

由定理一,任意特解可以表示为 x = y + z \pmb{x}=\pmb{y}+\pmb{z} x=y+z ,且 y \pmb{y} y 唯一存在。因为 y ⊥ z \pmb{y}\bot\pmb{z} yz ,则:

∥ x ∥ 2 = ∥ y ∥ 2 + ∥ z ∥ 2 ≥ ∥ y ∥ 2 \begin{Vmatrix}\pmb{x}\end{Vmatrix}^2=\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2+\begin{Vmatrix}\pmb{z}\end{Vmatrix}^2\ge\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2 x 2= y 2+ z 2 y 2

z = 0 \pmb{z}=\pmb{0} z=0 时,上式等号成立。

证毕。

2.3 定理三

rank A = m \text{rank} \pmb{A}=m rankA=m ,即 A \pmb{A} A 的列向量线性无关,则 A x = b \pmb{Ax}=\pmb{b} Ax=b 必有解,且极小范数解为:

x + = A T ( A A T ) − 1 b \pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b} x+=AT(AAT)1b

证明

因为 rank A = m \text{rank} \pmb{A}=m rankA=m ,则 dim ⁡ C ( A ) = m \dim C(\pmb{A})=m dimC(A)=m ,列空间 C ( A ) C(\pmb{A}) C(A) 充满 R m \mathbb{R}^m Rm ,所以任一 b ∈ R m \pmb{b}\in\mathbb{R}^m bRm 使 A x = b \pmb{Ax}=\pmb{b} Ax=b 有解。

推导方法1

因为 A \pmb{A} A 的列向量线性无关,所以 x + ∈ C ( A T ) \pmb{x}^+\in C(\pmb{A}^T) x+C(AT) 可唯一表示为列向量的线性组合,即存在唯一的 c \pmb{c} c 使得 x + = A T c \pmb{x}^+=\pmb{A}^T\pmb{c} x+=ATc 。代入 A x + = b \pmb{Ax}^+=\pmb{b} Ax+=b ,得:

A A T c = b \pmb{AA}^T\pmb{c}=\pmb{b} AATc=b

因为 rank ( A A T ) = rank ( A ) = m \text{rank}(\pmb{AA}^T)=\text{rank}(\pmb{A})=m rank(AAT)=rank(A)=m ,所以 A A T \pmb{AA}^T AAT 可逆 [ 5 ] ^{[5]} [5]

故: c = ( A A T ) − 1 b \pmb{c}=(\pmb{AA}^T)^{-1}\pmb{b} c=(AAT)1b

解得: x + = A T ( A A T ) − 1 b \pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b} x+=AT(AAT)1b

推导方法2,使用拉格朗日乘数法 [ 4 ] ^{[4]} [4]

m i n i m i z e ∥ x ∥ s u b j e c t t o A x = b \begin{split}minimize \quad &\begin{Vmatrix}\pmb{x}\end{Vmatrix}\\subject\quad to \quad& \pmb{Ax}=\pmb{b}\end{split} minimizesubjectto x Ax=b

最小化 ∥ x ∥ \begin{Vmatrix}\pmb{x}\end{Vmatrix} x ,等价于最小化 ∥ x ∥ 2 = x T x \begin{Vmatrix}\pmb{x}\end{Vmatrix}^2=\pmb{x}^T\pmb{x} x 2=xTx

拉格朗日函数: L ( x , λ ) = x T x + λ T ( A x − b ) L(\pmb{x},\pmb{\lambda})=\pmb{x}^T\pmb{x}+\pmb{\lambda}^T(\pmb{Ax}-\pmb{b}) L(x,λ)=xTx+λT(Axb)

其中 λ \pmb{\lambda} λ m m m 维拉格朗日乘数向量。计算:

∂ L ∂ x = 2 x + A T λ ∂ L ∂ λ = A x − b \begin{split}\frac{\partial L}{\partial\pmb{x}}&=2\pmb{x}+\pmb{A}^T\pmb{\lambda}\\\frac{\partial L}{\partial\pmb{\lambda}}&=\pmb{Ax}-\pmb{b}\end{split} xLλL=2x+ATλ=Axb

令上述两式等于零,得到最优化条件式。得: x + = − 1 2 A T λ \pmb{x}^+=-\frac{1}{2}\pmb{A}^T\pmb{\lambda} x+=21ATλ ,代入 A x + = b \pmb{Ax}^+=\pmb{b} Ax+=b ,得:

− 1 2 A A T λ = b -\frac{1}{2}\pmb{AA}^T\pmb{\lambda}=\pmb{b} 21AATλ=b

解得: λ = − 2 ( A A T ) − 1 b \pmb{\lambda}=-2(\pmb{AA}^T)^{-1}\pmb{b} λ=2(AAT)1b

所以: x + = A T ( A A T ) − 1 b \pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b} x+=AT(AAT)1b

2.4 计算方法

计算 x + \pmb{x}^+ x+ ,可以使用QR分解 [ 5 ] ^{[5]} [5]

A T = Q R \pmb{A}^T=\pmb{QR} AT=QR ,其中 Q \pmb{Q} Q n × m n\times m n×m 矩阵,且 Q T Q = I m \pmb{Q}^T\pmb{Q}=\pmb{I}_m QTQ=Im R \pmb{R} R m m m 阶上三角矩阵。

x + = A T ( A A T ) − 1 b = Q R ( R T Q T Q R ) − 1 b = Q R ( R T R ) − 1 b = Q R R − 1 ( R T ) − 1 b = Q ( R T ) − 1 b \begin{split}\pmb{x}^+ &= \pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b}\\ &= \pmb{QR}(\pmb{R}^T\pmb{Q}^T\pmb{QR})^{-1}\pmb{b}\\&=\pmb{QR}(\pmb{R}^T\pmb{R})^{-1}\pmb{b}\\&=\pmb{QRR}^{-1}(\pmb{R}^T)^{-1}\pmb{b}\\&=\pmb{Q}(\pmb{R}^T)^{-1}\pmb{b}\end{split} x+=AT(AAT)1b=QR(RTQTQR)1b=QR(RTR)1b=QRR1(RT)1b=Q(RT)1b

最佳值:

∥ x ∥ 2 = ( A T ( A A T ) − 1 b ) T ( A T ( A A T ) − 1 b ) = b T ( A A T ) − 1 b = b T ( R T R ) − 1 b \begin{split}\begin{Vmatrix}\pmb{x}\end{Vmatrix}^2 &= (\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b})^T(\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b})\\&=\pmb{b}^T(\pmb{AA}^T)^{-1}\pmb{b}\\&=\pmb{b}^T(\pmb{R}^T\pmb{R})^{-1}\pmb{b}\end{split} x 2=(AT(AAT)1b)T(AT(AAT)1b)=bT(AAT)1b=bT(RTR)1b

注意:

  • 在上述计算中,使用了矩阵求导等相关计算,请参阅《机器学习数学基础》第4章“向量分析”有关内容,书中的附录中也附有各种计算公式。
  • 定理三,仅限于 A \pmb{A} A 的列向量线性无关。若列向量线性相关,即 r a n k A ≤ m rank\pmb{A}\le m rankAm ,则 A A T \pmb{AA}^T AAT 不可逆。此时仍有极小范数解,表示为 x + = A + b \pmb{x}^+=\pmb{A}^+\pmb{b} x+=A+b ,其中 A + \pmb{A}^+ A+ 称为 A \pmb{A} A 的伪逆矩阵(或广义逆矩阵) [ 6 ] ^{[6]} [6]

参考文献

[1]. 极小范数解[DB/OL]. https://ccjou.wordpress.com/2014/05/21/極小範數解/

[2]. 矩阵基本子空间[DB/OL]. https://lqlab.readthedocs.io/en/latest/math4ML/linearalgebra/basetheory.html

[4]. Lagrange multiplier[DB/OL]. https://en.wikipedia.org/wiki/Lagrange_multiplier

[5]. 齐伟. 机器学习数学基础[M]. 北京:电子工业出版社, 2023年1月第3次印刷

[6]. 广义逆矩阵[DB/OL]. https://zh.wikipedia.org/wiki/广义逆矩阵

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐