多元高斯分布及其参数估计

多元高斯分布（或多元正态分布，Multivariate Gaussian Distribution）是。在机器学习、信号处理、统计学和模式识别等领域，多元高斯分布被广泛应用。，它考虑了数据的分布情况，而不是直接使用欧几里得距离。极大似然估计（MLE）用于找到。对于均值向量，MLE 估计值是。时，多元高斯分布退化为。，使得数据点的似然最大。协方差矩阵不仅仅描述。这个二次型相当于计算。

苏西月

1235人浏览 · 2025-03-08 10:38:56

苏西月 · 2025-03-08 10:38:56 发布

多元高斯分布（Multivariate Gaussian Distribution）

多元高斯分布（或多元正态分布，Multivariate Gaussian Distribution）是一维高斯分布的推广，用于描述高维随机变量的分布情况。在机器学习、信号处理、统计学和模式识别等领域，多元高斯分布被广泛应用。

1. 多元高斯分布的概率密度函数（PDF）

对于 $D$ 维随机向量 $x=(x1,x2,…,xD)T\mathbf{x} = (x_1, x_2, \dots, x_D)^T$ ，若其服从多元高斯分布，则它的概率密度函数（PDF）定义如下：
$p(x∣μ,Σ)=1(2π)D/2∣Σ∣1/2exp⁡(−12(x−μ)TΣ−1(x−μ))p(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) = \frac{1}{(2\pi)^{D/2} |\mathbf{\Sigma}|^{1/2}} \exp \left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)$

其中：

$x\mathbf{x}$ 是 $D$ 维随机变量：
$x=[x1x2⋮xD]\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_D \end{bmatrix}$
$μ\boldsymbol{\mu}$ 是均值向量（Mean Vector）：
$μ=E[x]=[μ1μ2⋮μD]\boldsymbol{\mu} = E[\mathbf{x}] = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_D \end{bmatrix}$
代表每个维度的中心位置。
$Σ\mathbf{\Sigma}$ 是协方差矩阵（Covariance Matrix）：
$Σ=E[(x−μ)(x−μ)T]\mathbf{\Sigma} = E[(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^T]$
其元素为：
$σij=E[(xi−μi)(xj−μj)]\sigma_{ij} = E[(x_i - \mu_i)(x_j - \mu_j)]$
- 对角元素 $σii\sigma_{ii}$ （方差） 描述了变量 $x_i$ 的方差，即 $x_i$ 取值的分散程度。
- 非对角元素 $σij\sigma_{ij}$ （协方差） 描述了变量 $x_i$ 和 $x_j$ 之间的关系：
  - 若 $σij>0\sigma_{ij} > 0$ ，表示两个变量正相关（一个增大，另一个也倾向于增大）。
  - 若 $σij<0\sigma_{ij} < 0$ ，表示两个变量负相关（一个增大，另一个倾向于减小）。
  - 若 $σij=0\sigma_{ij} = 0$ ，表示两个变量不相关。

PDF 公式的解析：

$∣Σ∣|\mathbf{\Sigma}|$ 是协方差矩阵的行列式（determinant），用于归一化以确保概率密度函数积分为1。
$Σ−1\mathbf{\Sigma}^{-1}$ 是协方差矩阵的逆矩阵，用于描述变量之间的相关性。
指数项：
$−12(x−μ)TΣ−1(x−μ)-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})$
称为二次型（quadratic form），它衡量了数据点 $x\mathbf{x}$ 到均值 $μ\boldsymbol{\mu}$ 的马哈拉诺比斯距离（Mahalanobis Distance）：
$dM(x,μ)=(x−μ)TΣ−1(x−μ)d_M(\mathbf{x}, \boldsymbol{\mu}) = \sqrt{(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})}$
这个距离比欧几里得距离（Euclidean Distance）更适合用于高维空间，因为它考虑了数据的协方差结构。

2. 一维高斯分布是多元高斯分布的特例

当 $D = 1$ 时，多元高斯分布退化为一维高斯分布：
$\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)$
此时：

均值向量： $μ=μ\boldsymbol{\mu} = \mu$
协方差矩阵： $Σ=σ2\mathbf{\Sigma} = \sigma^2$

3. 参数估计（MLE）

3.1 估计均值向量

给定 $N$ 个独立的 $D$ 维样本：
$x1,x2,…,xN\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N$
极大似然估计（MLE）用于找到最优均值和协方差矩阵，使得数据点的似然最大。

对于均值向量，MLE 估计值是样本均值：
$μ^=1N∑n=1Nxn\hat{\boldsymbol{\mu}} = \frac{1}{N} \sum_{n=1}^{N} \mathbf{x}_n$
解释：

计算 $N$ 个样本的均值，得到每个维度的中心点。

3.2 估计协方差矩阵

协方差矩阵的 MLE 估计值是：
$Σ^=1N∑n=1N(xn−μ^)(xn−μ^)T\hat{\mathbf{\Sigma}} = \frac{1}{N} \sum_{n=1}^{N} (\mathbf{x}_n - \hat{\boldsymbol{\mu}}) (\mathbf{x}_n - \hat{\boldsymbol{\mu}})^T$
解释：

计算所有样本相对于均值的偏差，然后取外积（outer product），求平均，得到协方差矩阵。

3.3 协方差矩阵的性质

对称性： $Σ\mathbf{\Sigma}$ 是一个对称矩阵，即 $σij=σji\sigma_{ij} = \sigma_{ji}$ 。
半正定性（Semi-Positive Definiteness）：
- 对于任何非零向量 $v\mathbf{v}$ ，都有：
  $vTΣv≥0\mathbf{v}^T \mathbf{\Sigma} \mathbf{v} \geq 0$
- 这意味着协方差矩阵的所有特征值 $λ\lambda$ 都是非负的（ $λ≥0\lambda \geq 0$ ）。
可逆性（Invertibility）：
- 若 $Σ\mathbf{\Sigma}$ 满秩（full-rank），则可逆，否则可能导致奇异性问题。

4. 直观理解

4.1 为什么使用协方差矩阵？

协方差矩阵不仅仅描述变量自身的方差，还描述了变量之间的相关性。例如：

若 $x_1$ 和 $x_2$ 具有正相关（即 $x_1$ 增大时， $x_2$ 也增大），则 $σ12>0\sigma_{12} > 0$ 。
若 $x_1$ 和 $x_2$ 具有负相关（即 $x_1$ 增大时， $x_2$ 减小），则 $σ12<0\sigma_{12} < 0$ 。
若 $x_1$ 和 $x_2$ 不相关，则 $σ12=0\sigma_{12} = 0$ 。

4.2 为什么指数项是二次型？

$(x−μ)TΣ−1(x−μ)(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})$
这个二次型相当于计算马哈拉诺比斯距离，它考虑了数据的分布情况，而不是直接使用欧几里得距离。