随机变量及其分布：深入理解概率模型的基础

随机变量及其分布构成了概率论与统计学的核心框架，为我们描述和分析不确定性提供了统一的数学语言。从简单的伯努利试验到复杂的联合分布，从离散计数到连续测量，这一理论体系不断发展完善，成为现代数据科学和机器学习的基石。

Niuguangshuo

1050人浏览 · 2026-01-06 18:54:20

Niuguangshuo · 2026-01-06 18:54:20 发布

引言：不确定性的数学语言

在我们生活的世界中，不确定性无处不在。明日的天气、股票的涨跌、用户的点击行为——这些现象都包含着固有的随机性。概率论为我们提供了一套严谨的数学工具来描述和分析这种不确定性，而随机变量正是这套工具的核心概念。

随机变量本质上是一个函数，它将随机试验的结果映射到实数。通过这种方式，我们可以用数值来描述随机现象，进而应用数学分析工具进行研究。理解随机变量及其分布，不仅是掌握概率论与统计学的基础，更是深入学习机器学习、金融工程、信号处理等现代学科的关键。

一、离散型随机变量：可数的可能性

离散型随机变量的取值是可数的——要么有限，要么可数无限。这类随机变量常用于描述计数型问题，如抛硬币的结果、网站访问量等。
对于离散型随机变量X，我们使用概率质量函数来描述其分布：
$P (X = x) = p (x)$
其中 $p (x)$ 表示X取特定值x的概率。概率质量函数满足两个基本性质：

非负性： $\leq p(x) \leq 1$ 对所有x成立
归一性： $∑xp(x)=1\sum_{x} p(x) = 1$

在这里插入图片描述

分布名称	描述与定义	概率质量函数	关键参数	期望与方差
伯努利分布	描述单次随机试验，结果只有两种（成功/失败）。是0-1分布。	$P (X = 1) = p$ $P (X = 0) = 1 - p$	$p$ ：单次试验中成功的概率	期望： $E [X] = p$ 方差： $Va r (X) = p (1 - p)$
二项分布	描述n次独立的伯努利试验中，成功次数的分布。（伯努利分布的推广）	$\binom{n}{k} p^k (1-p)^{n-k}$ 其中 $\ldots, n$	$n$ ：试验总次数 $p$ ：单次成功概率	期望： $E [X] = n p$ 方差： $Va r (X) = n p (1 - p)$
多项分布	描述n次独立试验中，多种可能结果出现次数的联合分布。（二项分布向多元的推广）	$P(X1=x1,…,Xk=xk)=n!x1!⋯xk!p1x1⋯pkxkP(X_1=x_1, \ldots, X_k=x_k) = \frac{n!}{x_1! \cdots x_k!} p_1^{x_1} \cdots p_k^{x_k}$ 约束： $∑i=1kxi=n\sum_{i=1}^k x_i = n$ ， $∑i=1kpi=1\sum_{i=1}^k p_i = 1$	$n$ ：试验总次数 $p1,…,pkp_1, \ldots, p_k$ ：各类别发生的概率	期望： $E[X_i] = np_i$ 方差： $Var(X_i) = np_i(1-p_i)$ 协方差： $Cov(X_i, X_j) = -np_i p_j$
泊松分布	描述在固定时间或空间内，稀有事件发生次数的分布。（二项分布当n很大p很小时的极限）	$\frac{\lambda^k e^{-\lambda}}{k!}$ 其中 $\ldots$	$λ\lambda$ ：单位时间/空间内事件发生的平均次数（速率）	期望： $E[X]=λE[X]=\lambda$ 方差： $Var(X)=λVar(X)=\lambda$
几何分布	描述在一系列独立伯努利试验中，首次获得成功所需的试验次数。	$P(X=k) = (1-p)^{k-1} p$ 其中 $\ldots$	$p$ ：单次试验成功的概率	期望： $E[X]=1pE[X]=\frac{1}{p}$ 方差： $Var(X)=1−pp2Var(X)=\frac{1-p}{p^2}$

二、连续型随机变量：连续的可能性

连续型随机变量的取值充满一个或多个区间，不可数。这类随机变量常用于描述测量型问题，如人的身高、温度变化等。对于连续型随机变量X，我们使用概率密度函数 $f (x)$ 来描述其分布。与离散情形不同，连续型随机变量取某个特定值的概率为0，我们关注的是它落在某个区间的概率：
$\leq X \leq b) = \int_a^b f(x) dx$

概率密度函数满足：

非负性： $\geq 0$ 对所有x成立
归一性： $∫−∞∞f(x)dx=1\int_{-\infty}^{\infty} f(x) dx = 1$

分布名称	描述与定义	概率密度函数	关键参数	期望与方差
均匀分布 (Uniform Distribution)	描述在区间 $[a, b]$ 上取值可能性相同的情况。	$\begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & \text{其他} \end{cases}$	$a$ ：下限 $b$ ：上限	期望： $\frac{a+b}{2}$ 方差： $\frac{(b-a)^2}{12}$
正态分布 (Normal Distribution)	最重要的连续分布，呈钟形曲线，由中心极限定理保证其广泛应用。	$\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$	$μ\mu$ ：均值（位置参数） $σ\sigma$ ：标准差（尺度参数，>0）	期望： $\mu$ 方差： $\sigma^2$
指数分布 (Exponential Distribution)	描述泊松过程中事件发生的时间间隔，具有无记忆性。	$\begin{cases} \lambda e^{-\lambda x}, & x \geq 0 \\ 0, & x < 0 \end{cases}$	$λ\lambda$ ：速率参数（>0），单位时间内事件发生的平均次数	期望： $\frac{1}{\lambda}$ 方差： $\frac{1}{\lambda^2}$

三、分布函数：统一的描述框架

累积分布函数为离散型和连续型随机变量提供了一个统一的描述框架。随机变量X的分布函数定义为：
$\leq x)$

分布函数具有以下关键性质：

单调不减：如果 $x_1 < x_2$ ，则 $F(x1)≤F(x2)F(x_1) \leq F(x_2)$
有界性： $lim⁡x→−∞F(x)=0\lim_{x \to -\infty} F(x) = 0$ ， $lim⁡x→∞F(x)=1\lim_{x \to \infty} F(x) = 1$
右连续性： $\lim_{h \to 0^+} F(x+h)$

对于离散型随机变量，其分布函数定义为所有小于等于 $x$ 的取值概率之和，其中 $P(X = x_i)$ 是随机变量 $X$ 取值为 $x_i$ 的概率。
$\leq x) = \sum_{x_i \leq x} P(X = x_i)$

对于连续型随机变量，分布函数与密度函数的关系为：
$\int_{-\infty}^x f(t) dt, \quad f(x) = \frac{d}{dx} F(x) \ (\text{在}f\text{连续的点})$
在这里插入图片描述

四、多维随机变量与联合分布

现实世界中的问题往往涉及多个随机变量。两个随机变量X和Y的联合分布函数定义为：
$\leq x, Y \leq y)$

联合分布函数具有以下性质：

单调性：对每个变量单调不减
有界性： $lim⁡x→−∞F(x,y)=0\lim_{x \to -\infty} F(x,y) = 0$ ， $lim⁡y→−∞F(x,y)=0\lim_{y \to -\infty} F(x,y) = 0$ ， $lim⁡x→∞,y→∞F(x,y)=1\lim_{x \to \infty, y \to \infty} F(x,y) = 1$
右连续性：对每个变量右连续
非负性：对任意 $a < b, c < d$ ，有 $\geq 0$

4.1 联合分布的类型

1. 离散型随机变量

对于离散型随机变量 $(X, Y)$ ，使用联合概率质量函数：
$p(x_i, y_j) = P(X = x_i, Y = y_j)$
其中， $∑i∑jp(xi,yj)=1\sum_i \sum_j p(x_i, y_j) = 1$

2. 连续型随机变量

对于连续型随机变量 $(X, Y)$ ，使用联合概率密度函数 $f (x, y)$ ，满足：

$\geq 0$
$∫−∞∞∫−∞∞f(x,y)dxdy=1\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x,y) dx dy = 1$
$\in A) = \iint_A f(x,y) dx dy$

4.2 常见二维联合分布

在这里插入图片描述

1. 二维离散均匀分布

若 $(X, Y)$ 在有限个点 $x_i, y_j)$ 上取值，且每个点概率相等，则称服从二维离散均匀分布。

示例：掷两枚骰子，设 $X$ 为第一枚点数， $Y$ 为第二枚点数，则：
$\frac{1}{36}, \quad x,y=1,2,\ldots,6$

2. 二维连续均匀分布

设 $G$ 是平面有界区域，面积为 $A$ ，则 $(X, Y)$ 在 $G$ 上服从均匀分布的联合密度为：
$\begin{cases} \frac{1}{A}, & (x,y) \in G \\ 0, & \text{其他} \end{cases}$

示例：在矩形 $\times [c,d]$ 上的均匀分布：
$\frac{1}{(b-a)(d-c)}, \quad a \leq x \leq b, c \leq y \leq d$

3. 二维正态分布（二元正态分布）

二维正态分布是最重要的连续型联合分布，其概率密度函数为：
$\frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left[ -\frac{1}{2(1-\rho^2)} \left( \frac{(x-\mu_X)^2}{\sigma_X^2} - 2\rho\frac{(x-\mu_X)(y-\mu_Y)}{\sigma_X\sigma_Y} + \frac{(y-\mu_Y)^2}{\sigma_Y^2} \right) \right]$

参数意义：

$μX,μY\mu_X, \mu_Y$ ： $X$ 和 $Y$ 的均值
$σX2,σY2\sigma_X^2, \sigma_Y^2$ ： $X$ 和 $Y$ 的方差
$ρ\rho$ ： $X$ 和 $Y$ 的相关系数， $\rho < 1$

重要性质：

边缘分布： $\sim N(\mu_X, \sigma_X^2)$ ， $\sim N(\mu_Y, \sigma_Y^2)$
当 $ρ=0\rho=0$ 时， $X$ 和 $Y$ 独立
条件分布：给定 $X = x$ 时， $Y$ 的条件分布是正态分布

4. 多项分布（离散型）

多项分布是二项分布的多元推广。进行 $n$ 次独立试验，每次试验有 $k$ 种可能结果，概率分别为 $p1,p2,…,pkp_1, p_2, \ldots, p_k$ ，则随机向量 $(X1,X2,…,Xk)(X_1, X_2, \ldots, X_k)$ 表示各类结果出现次数，服从多项分布：
$P(X_1=x_1, \ldots, X_k=x_k) = \frac{n!}{x_1! \cdots x_k!} p_1^{x_1} \cdots p_k^{x_k}$
其中 $∑i=1kxi=n\sum_{i=1}^k x_i = n$ ， $∑i=1kpi=1\sum_{i=1}^k p_i = 1$

5. 独立同分布随机变量

若 $X$ 和 $Y$ 独立且服从相同分布，则称独立同分布。独立性的一个重要推论是：如果 $X$ 和 $Y$ 独立，则任何基于 $X$ 的函数与任何基于 $Y$ 的函数也独立。此时：

联合分布函数： $F(x,y) = F_X(x)F_Y(y)$
离散型： $p(x,y) = p_X(x)p_Y(y)$
连续型： $f(x,y) = f_X(x)f_Y(y)$

五、边缘分布与条件分布

多维随机变量的联合分布包含了所有变量的完整信息。从中我们可以提取两种重要的分布：边缘分布（描述单个变量的行为）和条件分布（描述给定其他变量时一个变量的行为）。

5.1 边缘分布

从联合分布中提取单个变量的分布，称为边缘分布。

1. 离散型随机变量

对于二维离散随机变量 $(X, Y)$ ， $X$ 的边缘概率质量函数为：
$p_X(x) = P(X = x) = \sum_{y} p(x,y)$
其中 $p (x, y)$ 是联合概率质量函数。

2. 连续型随机变量

对于二维连续随机变量 $(X, Y)$ ， $X$ 的边缘概率密度函数为：
$f_X(x) = \int_{-\infty}^{\infty} f(x,y) dy$
其中 $f (x, y)$ 是联合概率密度函数。

3. 几何解释

边缘分布可以看作将联合分布"投影"到单个坐标轴上：

离散情形：将二维概率表的各行（或各列）概率相加
连续情形：将二维概率密度函数沿一个维度积分

示例：对于二维正态分布 $N(μX,μY,σX2,σY2,ρ)N(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho)$ ， $X$ 的边缘分布是 $N(μX,σX2)N(\mu_X, \sigma_X^2)$ ， $Y$ 的边缘分布是 $N(μY,σY2)N(\mu_Y, \sigma_Y^2)$ 。

5.2 条件分布

给定一个随机变量的值时，另一个随机变量的分布称为条件分布。

2.1 离散型随机变量

给定 $Y = y$ 时 $X$ 的条件概率质量函数为：
$\frac{p(x,y)}{p_Y(y)}, \quad \text{如果 } p_Y(y)>0$

2.2 连续型随机变量

给定 $Y = y$ 时 $X$ 的条件概率密度函数为：
$f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}, \quad \text{如果 } f_Y(y)>0$

2.3 条件分布的性质

规范性： $∑xP(X=x∣Y=y)=1\sum_x P(X=x|Y=y) = 1$ 或 $∫−∞∞fX∣Y(x∣y)dx=1\int_{-\infty}^{\infty} f_{X|Y}(x|y) dx = 1$
条件期望： $\sum_x x P(X=x|Y=y)$ （离散）或 $\int x f_{X|Y}(x|y) dx$ （连续）
条件方差： $Var(X|Y=y) = E[(X - E[X|Y=y])^2 | Y=y]$