多元高斯分布及其参数估计
多元高斯分布(或多元正态分布,Multivariate Gaussian Distribution)是。在机器学习、信号处理、统计学和模式识别等领域,多元高斯分布被广泛应用。,它考虑了数据的分布情况,而不是直接使用欧几里得距离。极大似然估计(MLE)用于找到。对于均值向量,MLE 估计值是。时,多元高斯分布退化为。,使得数据点的似然最大。协方差矩阵不仅仅描述。这个二次型相当于计算。
多元高斯分布(Multivariate Gaussian Distribution)
多元高斯分布(或多元正态分布,Multivariate Gaussian Distribution)是一维高斯分布的推广,用于描述高维随机变量的分布情况。在机器学习、信号处理、统计学和模式识别等领域,多元高斯分布被广泛应用。
1. 多元高斯分布的概率密度函数(PDF)
对于 DDD 维随机向量 x=(x1,x2,…,xD)T\mathbf{x} = (x_1, x_2, \dots, x_D)^Tx=(x1,x2,…,xD)T,若其服从多元高斯分布,则它的概率密度函数(PDF)定义如下:
p(x∣μ,Σ)=1(2π)D/2∣Σ∣1/2exp(−12(x−μ)TΣ−1(x−μ))p(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) = \frac{1}{(2\pi)^{D/2} |\mathbf{\Sigma}|^{1/2}} \exp \left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)p(x∣μ,Σ)=(2π)D/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
其中:
- x\mathbf{x}x 是 DDD 维随机变量:
x=[x1x2⋮xD]\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_D \end{bmatrix}x= x1x2⋮xD - μ\boldsymbol{\mu}μ 是均值向量(Mean Vector):
μ=E[x]=[μ1μ2⋮μD]\boldsymbol{\mu} = E[\mathbf{x}] = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_D \end{bmatrix}μ=E[x]= μ1μ2⋮μD
代表每个维度的中心位置。 - Σ\mathbf{\Sigma}Σ 是协方差矩阵(Covariance Matrix):
Σ=E[(x−μ)(x−μ)T]\mathbf{\Sigma} = E[(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^T]Σ=E[(x−μ)(x−μ)T]
其元素为:
σij=E[(xi−μi)(xj−μj)]\sigma_{ij} = E[(x_i - \mu_i)(x_j - \mu_j)]σij=E[(xi−μi)(xj−μj)]- 对角元素 σii\sigma_{ii}σii(方差) 描述了变量 xix_ixi 的方差,即 xix_ixi 取值的分散程度。
- 非对角元素 σij\sigma_{ij}σij(协方差) 描述了变量 xix_ixi 和 xjx_jxj 之间的关系:
- 若 σij>0\sigma_{ij} > 0σij>0,表示两个变量正相关(一个增大,另一个也倾向于增大)。
- 若 σij<0\sigma_{ij} < 0σij<0,表示两个变量负相关(一个增大,另一个倾向于减小)。
- 若 σij=0\sigma_{ij} = 0σij=0,表示两个变量不相关。
PDF 公式的解析:
- ∣Σ∣|\mathbf{\Sigma}|∣Σ∣ 是协方差矩阵的行列式(determinant),用于归一化以确保概率密度函数积分为1。
- Σ−1\mathbf{\Sigma}^{-1}Σ−1 是协方差矩阵的逆矩阵,用于描述变量之间的相关性。
- 指数项:
−12(x−μ)TΣ−1(x−μ)-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})−21(x−μ)TΣ−1(x−μ)
称为二次型(quadratic form),它衡量了数据点 x\mathbf{x}x 到均值 μ\boldsymbol{\mu}μ 的马哈拉诺比斯距离(Mahalanobis Distance):
dM(x,μ)=(x−μ)TΣ−1(x−μ)d_M(\mathbf{x}, \boldsymbol{\mu}) = \sqrt{(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})}dM(x,μ)=(x−μ)TΣ−1(x−μ)
这个距离比欧几里得距离(Euclidean Distance)更适合用于高维空间,因为它考虑了数据的协方差结构。
2. 一维高斯分布是多元高斯分布的特例
当 D=1D = 1D=1 时,多元高斯分布退化为一维高斯分布:
p(x∣μ,σ2)=12πσ2exp(−(x−μ)22σ2)p(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)p(x∣μ,σ2)=2πσ21exp(−2σ2(x−μ)2)
此时:
- 均值向量:μ=μ\boldsymbol{\mu} = \muμ=μ
- 协方差矩阵:Σ=σ2\mathbf{\Sigma} = \sigma^2Σ=σ2
3. 参数估计(MLE)
3.1 估计均值向量
给定 NNN 个独立的 DDD 维样本:
x1,x2,…,xN\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_Nx1,x2,…,xN
极大似然估计(MLE)用于找到最优均值和协方差矩阵,使得数据点的似然最大。
对于均值向量,MLE 估计值是样本均值:
μ^=1N∑n=1Nxn\hat{\boldsymbol{\mu}} = \frac{1}{N} \sum_{n=1}^{N} \mathbf{x}_nμ^=N1n=1∑Nxn
解释:
- 计算 NNN 个样本的均值,得到每个维度的中心点。
3.2 估计协方差矩阵
协方差矩阵的 MLE 估计值是:
Σ^=1N∑n=1N(xn−μ^)(xn−μ^)T\hat{\mathbf{\Sigma}} = \frac{1}{N} \sum_{n=1}^{N} (\mathbf{x}_n - \hat{\boldsymbol{\mu}}) (\mathbf{x}_n - \hat{\boldsymbol{\mu}})^TΣ^=N1n=1∑N(xn−μ^)(xn−μ^)T
解释:
- 计算所有样本相对于均值的偏差,然后取外积(outer product),求平均,得到协方差矩阵。
3.3 协方差矩阵的性质
- 对称性:Σ\mathbf{\Sigma}Σ 是一个对称矩阵,即 σij=σji\sigma_{ij} = \sigma_{ji}σij=σji。
- 半正定性(Semi-Positive Definiteness):
- 对于任何非零向量 v\mathbf{v}v,都有:
vTΣv≥0\mathbf{v}^T \mathbf{\Sigma} \mathbf{v} \geq 0vTΣv≥0 - 这意味着协方差矩阵的所有特征值 λ\lambdaλ 都是非负的(λ≥0\lambda \geq 0λ≥0)。
- 对于任何非零向量 v\mathbf{v}v,都有:
- 可逆性(Invertibility):
- 若 Σ\mathbf{\Sigma}Σ 满秩(full-rank),则可逆,否则可能导致奇异性问题。
4. 直观理解
4.1 为什么使用协方差矩阵?
协方差矩阵不仅仅描述变量自身的方差,还描述了变量之间的相关性。例如:
- 若 x1x_1x1 和 x2x_2x2 具有正相关(即 x1x_1x1 增大时,x2x_2x2 也增大),则 σ12>0\sigma_{12} > 0σ12>0。
- 若 x1x_1x1 和 x2x_2x2 具有负相关(即 x1x_1x1 增大时,x2x_2x2 减小),则 σ12<0\sigma_{12} < 0σ12<0。
- 若 x1x_1x1 和 x2x_2x2 不相关,则 σ12=0\sigma_{12} = 0σ12=0。
4.2 为什么指数项是二次型?
(x−μ)TΣ−1(x−μ)(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})(x−μ)TΣ−1(x−μ)
这个二次型相当于计算马哈拉诺比斯距离,它考虑了数据的分布情况,而不是直接使用欧几里得距离。
更多推荐



所有评论(0)