多元高斯分布(Multivariate Gaussian Distribution)

多元高斯分布(或多元正态分布,Multivariate Gaussian Distribution)是一维高斯分布的推广,用于描述高维随机变量的分布情况。在机器学习、信号处理、统计学和模式识别等领域,多元高斯分布被广泛应用。


1. 多元高斯分布的概率密度函数(PDF)

对于 DDD 维随机向量 x=(x1,x2,…,xD)T\mathbf{x} = (x_1, x_2, \dots, x_D)^Tx=(x1,x2,,xD)T,若其服从多元高斯分布,则它的概率密度函数(PDF)定义如下:
p(x∣μ,Σ)=1(2π)D/2∣Σ∣1/2exp⁡(−12(x−μ)TΣ−1(x−μ))p(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) = \frac{1}{(2\pi)^{D/2} |\mathbf{\Sigma}|^{1/2}} \exp \left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)p(xμ,Σ)=(2π)D/2Σ1/21exp(21(xμ)TΣ1(xμ))

其中:

  • x\mathbf{x}xDDD 维随机变量:
    x=[x1x2⋮xD]\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_D \end{bmatrix}x= x1x2xD
  • μ\boldsymbol{\mu}μ均值向量(Mean Vector)
    μ=E[x]=[μ1μ2⋮μD]\boldsymbol{\mu} = E[\mathbf{x}] = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_D \end{bmatrix}μ=E[x]= μ1μ2μD
    代表每个维度的中心位置。
  • Σ\mathbf{\Sigma}Σ协方差矩阵(Covariance Matrix)
    Σ=E[(x−μ)(x−μ)T]\mathbf{\Sigma} = E[(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^T]Σ=E[(xμ)(xμ)T]
    其元素为:
    σij=E[(xi−μi)(xj−μj)]\sigma_{ij} = E[(x_i - \mu_i)(x_j - \mu_j)]σij=E[(xiμi)(xjμj)]
    • 对角元素 σii\sigma_{ii}σii(方差) 描述了变量 xix_ixi方差,即 xix_ixi 取值的分散程度
    • 非对角元素 σij\sigma_{ij}σij(协方差) 描述了变量 xix_ixixjx_jxj 之间的关系
      • σij>0\sigma_{ij} > 0σij>0,表示两个变量正相关(一个增大,另一个也倾向于增大)。
      • σij<0\sigma_{ij} < 0σij<0,表示两个变量负相关(一个增大,另一个倾向于减小)。
      • σij=0\sigma_{ij} = 0σij=0,表示两个变量不相关

PDF 公式的解析

  • ∣Σ∣|\mathbf{\Sigma}|Σ 是协方差矩阵的行列式(determinant),用于归一化以确保概率密度函数积分为1。
  • Σ−1\mathbf{\Sigma}^{-1}Σ1 是协方差矩阵的逆矩阵,用于描述变量之间的相关性。
  • 指数项
    −12(x−μ)TΣ−1(x−μ)-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})21(xμ)TΣ1(xμ)
    称为二次型(quadratic form),它衡量了数据点 x\mathbf{x}x 到均值 μ\boldsymbol{\mu}μ马哈拉诺比斯距离(Mahalanobis Distance)
    dM(x,μ)=(x−μ)TΣ−1(x−μ)d_M(\mathbf{x}, \boldsymbol{\mu}) = \sqrt{(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})}dM(x,μ)=(xμ)TΣ1(xμ)
    这个距离比欧几里得距离(Euclidean Distance)更适合用于高维空间,因为它考虑了数据的协方差结构。

2. 一维高斯分布是多元高斯分布的特例

D=1D = 1D=1 时,多元高斯分布退化为一维高斯分布
p(x∣μ,σ2)=12πσ2exp⁡(−(x−μ)22σ2)p(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)p(xμ,σ2)=2πσ2 1exp(2σ2(xμ)2)
此时:

  • 均值向量μ=μ\boldsymbol{\mu} = \muμ=μ
  • 协方差矩阵Σ=σ2\mathbf{\Sigma} = \sigma^2Σ=σ2

3. 参数估计(MLE)

3.1 估计均值向量

给定 NNN 个独立的 DDD 维样本:
x1,x2,…,xN\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_Nx1,x2,,xN
极大似然估计(MLE)用于找到最优均值和协方差矩阵,使得数据点的似然最大。

对于均值向量,MLE 估计值是样本均值
μ^=1N∑n=1Nxn\hat{\boldsymbol{\mu}} = \frac{1}{N} \sum_{n=1}^{N} \mathbf{x}_nμ^=N1n=1Nxn
解释

  • 计算 NNN 个样本的均值,得到每个维度的中心点。

3.2 估计协方差矩阵

协方差矩阵的 MLE 估计值是:
Σ^=1N∑n=1N(xn−μ^)(xn−μ^)T\hat{\mathbf{\Sigma}} = \frac{1}{N} \sum_{n=1}^{N} (\mathbf{x}_n - \hat{\boldsymbol{\mu}}) (\mathbf{x}_n - \hat{\boldsymbol{\mu}})^TΣ^=N1n=1N(xnμ^)(xnμ^)T
解释

  • 计算所有样本相对于均值的偏差,然后取外积(outer product),求平均,得到协方差矩阵

3.3 协方差矩阵的性质

  1. 对称性Σ\mathbf{\Sigma}Σ 是一个对称矩阵,即 σij=σji\sigma_{ij} = \sigma_{ji}σij=σji
  2. 半正定性(Semi-Positive Definiteness)
    • 对于任何非零向量 v\mathbf{v}v,都有:
      vTΣv≥0\mathbf{v}^T \mathbf{\Sigma} \mathbf{v} \geq 0vTΣv0
    • 这意味着协方差矩阵的所有特征值 λ\lambdaλ 都是非负的(λ≥0\lambda \geq 0λ0)。
  3. 可逆性(Invertibility)
    • Σ\mathbf{\Sigma}Σ 满秩(full-rank),则可逆,否则可能导致奇异性问题。

4. 直观理解

4.1 为什么使用协方差矩阵?

协方差矩阵不仅仅描述变量自身的方差,还描述了变量之间的相关性。例如:

  • x1x_1x1x2x_2x2 具有正相关(即 x1x_1x1 增大时,x2x_2x2 也增大),则 σ12>0\sigma_{12} > 0σ12>0
  • x1x_1x1x2x_2x2 具有负相关(即 x1x_1x1 增大时,x2x_2x2 减小),则 σ12<0\sigma_{12} < 0σ12<0
  • x1x_1x1x2x_2x2 不相关,则 σ12=0\sigma_{12} = 0σ12=0

4.2 为什么指数项是二次型?

(x−μ)TΣ−1(x−μ)(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})(xμ)TΣ1(xμ)
这个二次型相当于计算马哈拉诺比斯距离,它考虑了数据的分布情况,而不是直接使用欧几里得距离。


Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐