概率分布

概率分布是描述随机变量不同结果可能性的数学函数。它们为随机现象的概率结构提供了完整描述，是统计分析和机器学习的基础。

概述

概率分布可以根据随机变量的性质进行分类：离散（可数结果）、连续（区间内的不可数结果）或混合（组合）。每个分布的特征由其支撑集（可能值）、概率函数（离散为PMF，连续为PDF）、累积分布函数、参数和矩来描述。

Definition概率分布

概率分布是函数或规则，它为随机实验的结果或更一般地为样本空间中的事件分配概率。设 $X$ 为随机变量，则 $X$ 的概率分布由其离散变量的概率质量函数（PMF）或连续变量的概率密度函数（PDF）定义。

不失一般性，我们可以将随机变量 $X$ 的分布定义如下： $P(X = x) = f(x)$ 对于离散变量，其中 $f(x)$ 是PMF，而 $P(X \leq x) = F(x)$ 对于连续变量，其中 $F(x)$ 是累积分布函数（CDF）。 PMF和PDF必须满足非负性和归一化性质：

对于离散变量： $\sum_{x} P(X = x) = 1$
对于连续变量： $\int_{-\infty}^{\infty} f(x) dx = 1$

离散概率分布

伯努利分布

建模具有两个可能结果（成功/失败）的单次试验

参数： $p$ （成功概率），其中 $0 \leq p \leq 1$

支撑集： $x \in \{0, 1\}$

PMF： $P(X = x) = p^x(1-p)^{1-x}$

矩计算：

对于期望值：

\begin{aligned} \mathbb{E}[X] &= \sum_{x=0}^{1} x \cdot P(X = x) \\ &= 0 \cdot (1-p) + 1 \cdot p \\ &= p \end{aligned}

对于二阶矩：

\begin{aligned} \mathbb{E}[X^2] &= \sum_{x=0}^{1} x^2 \cdot P(X = x) \\ &= 0^2 \cdot (1-p) + 1^2 \cdot p \\ &= p \end{aligned}

因此，方差为：

\begin{aligned} \mathbb{V}(X) &= \mathbb{E}[X^2] - (\mathbb{E}[X])^2 \\ &= p - p^2 \\ &= p(1-p) \end{aligned}

应用：硬币翻转、二元结果、指示变量

二项分布

建模 $n$ 次独立伯努利试验中的成功次数

参数： $n$ （试验次数）， $p$ （成功概率）

支撑集： $x \in \{0, 1, 2, ..., n\}$

PMF： $P(X = x) = \binom{n}{x} p^x(1-p)^{n-x}$

矩计算：

期望值可以使用期望的线性性质推导。由于 $X = \sum_{i=1}^{n} X_i$ ，其中 $X_i \sim \text{伯努利}(p)$ ：

\begin{aligned} \mathbb{E}[X] &= \mathbb{E}\left[\sum_{i=1}^{n} X_i\right] \\ &= \sum_{i=1}^{n} \mathbb{E}[X_i] \\ &= \sum_{i=1}^{n} p \\ &= np \end{aligned}

对于方差，由于 $X_i$ 是独立的：

\begin{aligned} \mathbb{V}(X) &= \mathbb{V}\left(\sum_{i=1}^{n} X_i\right) \\ &= \sum_{i=1}^{n} \mathbb{V}(X_i) \\ &= \sum_{i=1}^{n} p(1-p) \\ &= np(1-p) \end{aligned}

或者，我们可以直接计算：

\begin{aligned} \mathbb{E}[X] &= \sum_{x=0}^{n} x \binom{n}{x} p^x(1-p)^{n-x} \\ &= np\sum_{x=1}^{n} \binom{n-1}{x-1} p^{x-1}(1-p)^{n-x} \\ &= np \end{aligned}

应用：质量控制、调查抽样、临床试验

超几何分布

建模从有限总体中无放回抽取 $n$ 次的成功次数

参数： $N$ （总体大小）， $K$ （成功状态数）， $n$ （抽取次数）

支撑集： $x \in \{\max(0, n-(N-K)), \ldots, \min(n, K)\}$

PMF： $P(X = x) = \frac{\binom{K}{x}\binom{N-K}{n-x}}{\binom{N}{n}}$

矩计算：

对于期望值，我们使用指示变量。设 $I_j = 1$ 如果第 $j$ 次抽取是成功， $0$ 否则。则 $X = \sum_{j=1}^{n} I_j$ 。

任何特定抽取是成功的概率为 $P(I_j = 1) = \frac{K}{N}$ ，所以：

\begin{aligned} \mathbb{E}[X] &= \mathbb{E}\left[\sum_{j=1}^{n} I_j\right] \\ &= \sum_{j=1}^{n} \mathbb{E}[I_j] \\ &= \sum_{j=1}^{n} \frac{K}{N} \\ &= n\frac{K}{N} \end{aligned}

对于方差，我们需要考虑抽取之间的依赖性：

\begin{aligned} \mathbb{V}(X) &= \mathbb{V}\left(\sum_{j=1}^{n} I_j\right) \\ &= \sum_{j=1}^{n} \mathbb{V}(I_j) + 2\sum_{j < k} \text{Cov}(I_j, I_k) \end{aligned}

由于 $\mathbb{V}(I_j) = \frac{K}{N}(1-\frac{K}{N})$ 且 $\text{Cov}(I_j, I_k) = -\frac{K(N-K)}{N^2(N-1)}$ 对于 $j \neq k$ ：

\begin{aligned} \mathbb{V}(X) &= n\frac{K}{N}\left(1-\frac{K}{N}\right) + n(n-1)\left(-\frac{K(N-K)}{N^2(N-1)}\right) \\ &= n\frac{K}{N}\frac{N-K}{N} - n(n-1)\frac{K(N-K)}{N^2(N-1)} \\ &= n\frac{K(N-K)}{N^2}\left(1 - \frac{n-1}{N-1}\right) \\ &= n\frac{K(N-K)}{N^2}\left(\frac{N-n}{N-1}\right) \end{aligned}

应用：无放回抽样、质量控制、生态研究

泊松分布

建模固定区间内发生的事件数量

参数： $\lambda$ （率参数），其中 $\lambda > 0$

支撑集： $x \in \{0, 1, 2, ...\}$

PMF： $P(X = x) = \frac{e^{-\lambda}\lambda^x}{x!}$

矩计算：

对于期望值：

\begin{aligned} \mathbb{E}[X] &= \sum_{x=0}^{\infty} x \cdot \frac{e^{-\lambda}\lambda^x}{x!} \\ &= e^{-\lambda}\sum_{x=1}^{\infty} \frac{\lambda^x}{(x-1)!} \\ &= e^{-\lambda}\lambda\sum_{x=1}^{\infty} \frac{\lambda^{x-1}}{(x-1)!} \end{aligned}

令 $k = x-1$ ：

\begin{aligned} \mathbb{E}[X] &= e^{-\lambda}\lambda\sum_{k=0}^{\infty} \frac{\lambda^k}{k!} \\ &= e^{-\lambda}\lambda e^{\lambda} \\ &= \lambda \end{aligned}

对于二阶矩：

\begin{aligned} \mathbb{E}[X^2] &= \sum_{x=0}^{\infty} x^2 \cdot \frac{e^{-\lambda}\lambda^x}{x!} \\ &= e^{-\lambda}\sum_{x=1}^{\infty} x \cdot \frac{\lambda^x}{(x-1)!} \end{aligned}

令 $k = x-1$ ：

\begin{aligned} \mathbb{E}[X^2] &= e^{-\lambda}\sum_{k=0}^{\infty} (k+1) \cdot \frac{\lambda^{k+1}}{k!} \\ &= e^{-\lambda}\lambda\sum_{k=0}^{\infty} (k+1) \cdot \frac{\lambda^k}{k!} \\ &= e^{-\lambda}\lambda\left(\sum_{k=0}^{\infty} k \cdot \frac{\lambda^k}{k!} + \sum_{k=0}^{\infty} \frac{\lambda^k}{k!}\right) \\ &= e^{-\lambda}\lambda(\lambda e^{\lambda} + e^{\lambda}) \\ &= \lambda(\lambda + 1) \end{aligned}

因此：

\begin{aligned} \mathbb{V}(X) &= \mathbb{E}[X^2] - (\mathbb{E}[X])^2 \\ &= \lambda(\lambda + 1) - \lambda^2 \\ &= \lambda \end{aligned}

性质：泊松分布是二项分布 $B(n,p)$ 当 $n \to \infty$ ， $p \to 0$ 且 $np = \lambda$ 时的极限。

应用：呼叫中心、交通流量、放射性衰变、稀有事件

连续概率分布

正态（高斯）分布

统计学中最重要的连续分布

参数： $\mu$ （均值）， $\sigma^2$ （方差）

支撑集： $x \in (-\infty, \infty)$

PDF： $f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

矩计算：

对于标准正态分布 $Z \sim N(0,1)$ ：

期望值为：

\begin{aligned} \mathbb{E}[Z] &= \int_{-\infty}^{\infty} z \cdot \frac{1}{\sqrt{2\pi}} e^{-z^2/2} dz \\ &= 0 \end{aligned}

这是因为被积函数是奇函数且积分收敛。

对于方差：

\begin{aligned} \mathbb{E}[Z^2] &= \int_{-\infty}^{\infty} z^2 \cdot \frac{1}{\sqrt{2\pi}} e^{-z^2/2} dz \end{aligned}

使用分部积分，设 $u = z$ ， $dv = z e^{-z^2/2} dz$ ：

\begin{aligned} \mathbb{E}[Z^2] &= \frac{1}{\sqrt{2\pi}} \left[ -z e^{-z^2/2} \right]_{-\infty}^{\infty} + \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-z^2/2} dz \\ &= 0 + 1 \\ &= 1 \end{aligned}

因此， $\mathbb{V}(Z) = \mathbb{E}[Z^2] - (\mathbb{E}[Z])^2 = 1 - 0 = 1$ 。

对于一般正态分布 $X = \mu + \sigma Z$ ：

\begin{aligned} \mathbb{E}[X] &= \mathbb{E}[\mu + \sigma Z] \\ &= \mu + \sigma \mathbb{E}[Z] \\ &= \mu \end{aligned}

\begin{aligned} \mathbb{V}(X) &= \mathbb{V}[\mu + \sigma Z] \\ &= \sigma^2 \mathbb{V}(Z) \\ &= \sigma^2 \end{aligned}

性质：中心极限定理指出随机变量的和趋近于正态性。正态变量的线性组合是正态的。

可加性性质：如果 $X \sim N(\mu_1, \sigma_1^2)$ 和 $Y \sim N(\mu_2, \sigma_2^2)$ 独立，则： $X + Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$

Proof可加性

设 $X \sim N(\mu_1, \sigma_1^2)$ 和 $Y \sim N(\mu_2, \sigma_2^2)$ 为独立的正态随机变量。

我们可以写成 $X = \mu_1 + \sigma_1 Z_1$ 和 $Y = \mu_2 + \sigma_2 Z_2$ ，其中 $Z_1, Z_2 \sim N(0,1)$ 是独立的标准正态变量。

那么： $X + Y = (\mu_1 + \mu_2) + \sigma_1 Z_1 + \sigma_2 Z_2$

由于 $Z_1$ 和 $Z_2$ 独立，线性组合 $\sigma_1 Z_1 + \sigma_2 Z_2$ 也服从正态分布，其参数为：

均值： $\mathbb{E}[\sigma_1 Z_1 + \sigma_2 Z_2] = \sigma_1 \cdot 0 + \sigma_2 \cdot 0 = 0$
方差： $\mathbb{V}(\sigma_1 Z_1 + \sigma_2 Z_2) = \sigma_1^2 \cdot 1 + \sigma_2^2 \cdot 1 = \sigma_1^2 + \sigma_2^2$

因此： $\sigma_1 Z_1 + \sigma_2 Z_2 \sim N(0, \sigma_1^2 + \sigma_2^2)$

所以： $X + Y = (\mu_1 + \mu_2) + (\sigma_1 Z_1 + \sigma_2 Z_2) \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$

Proof使用矩生成函数

$X \sim N(\mu, \sigma^2)$ 的矩生成函数为： $M_X(t) = e^{\mu t + \frac{1}{2}\sigma^2 t^2}$

对于独立的 $X$ 和 $Y$ ： $M_{X+Y}(t) = M_X(t) \cdot M_Y(t) = e^{\mu_1 t + \frac{1}{2}\sigma_1^2 t^2} \cdot e^{\mu_2 t + \frac{1}{2}\sigma_2^2 t^2} = e^{(\mu_1 + \mu_2)t + \frac{1}{2}(\sigma_1^2 + \sigma_2^2)t^2}$

这是 $N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$ 的矩生成函数，证明了结果。

应用：自然现象、测量误差、统计推断

指数分布

建模泊松过程中事件之间的时间

参数： $\lambda$ （率参数），其中 $\lambda > 0$

支撑集： $x \in [0, \infty)$

PDF： $f(x) = \lambda e^{-\lambda x}$ 对于 $x \geq 0$

矩计算：

对于期望值：

\begin{aligned} \mathbb{E}[X] &= \int_{0}^{\infty} x \lambda e^{-\lambda x} dx \end{aligned}

使用分部积分，设 $u = x$ ， $dv = \lambda e^{-\lambda x} dx$ ：

\begin{aligned} \mathbb{E}[X] &= \left[ -x e^{-\lambda x} \right]_{0}^{\infty} + \int_{0}^{\infty} e^{-\lambda x} dx \\ &= 0 + \left[ -\frac{1}{\lambda} e^{-\lambda x} \right]_{0}^{\infty} \\ &= \frac{1}{\lambda} \end{aligned}

对于二阶矩：

\begin{aligned} \mathbb{E}[X^2] &= \int_{0}^{\infty} x^2 \lambda e^{-\lambda x} dx \end{aligned}

使用分部积分，设 $u = x^2$ ， $dv = \lambda e^{-\lambda x} dx$ ：

\begin{aligned} \mathbb{E}[X^2] &= \left[ -x^2 e^{-\lambda x} \right]_{0}^{\infty} + \int_{0}^{\infty} 2x e^{-\lambda x} dx \\ &= 0 + \frac{2}{\lambda} \int_{0}^{\infty} x \lambda e^{-\lambda x} dx \\ &= \frac{2}{\lambda} \cdot \frac{1}{\lambda} \\ &= \frac{2}{\lambda^2} \end{aligned}

因此：

\begin{aligned} \mathbb{V}(X) &= \mathbb{E}[X^2] - (\mathbb{E}[X])^2 \\ &= \frac{2}{\lambda^2} - \left(\frac{1}{\lambda}\right)^2 \\ &= \frac{1}{\lambda^2} \end{aligned}

性质：无记忆性： $P(X > s+t | X > s) = P(X > t)$

应用：可靠性工程、排队论、生存分析

伽马分布（选学）

推广指数分布，建模等待时间

参数： $\alpha$ （形状）， $\beta$ （率），都 $> 0$

支撑集： $x \in [0, \infty)$

PDF： $f(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}$ 对于 $x \geq 0$

矩计算：

矩生成函数为：

\begin{aligned} M_X(t) &= \mathbb{E}[e^{tX}] \\ &= \int_{0}^{\infty} e^{tx} \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} dx \\ &= \frac{\beta^\alpha}{\Gamma(\alpha)} \int_{0}^{\infty} x^{\alpha-1} e^{-(\beta-t)x} dx \\ &= \frac{\beta^\alpha}{\Gamma(\alpha)} \cdot \frac{\Gamma(\alpha)}{(\beta-t)^\alpha} \\ &= \left(\frac{\beta}{\beta-t}\right)^\alpha \text{ 对于 } t < \beta \end{aligned}

使用MGF求矩：

\begin{aligned} \mathbb{E}[X] &= M_X'(0) \\ &= \alpha \beta^{\alpha} (\beta-t)^{-\alpha-1} \Big|_{t=0} \\ &= \alpha \beta^{\alpha} \beta^{-\alpha-1} \\ &= \frac{\alpha}{\beta} \end{aligned}

\begin{aligned} \mathbb{E}[X^2] &= M_X''(0) \\ &= \alpha(\alpha+1)\beta^{\alpha} (\beta-t)^{-\alpha-2} \Big|_{t=0} \\ &= \frac{\alpha(\alpha+1)}{\beta^2} \end{aligned}

因此：

\begin{aligned} \mathbb{V}(X) &= \mathbb{E}[X^2] - (\mathbb{E}[X])^2 \\ &= \frac{\alpha(\alpha+1)}{\beta^2} - \frac{\alpha^2}{\beta^2} \\ &= \frac{\alpha}{\beta^2} \end{aligned}

性质： $\alpha$ 个独立指数分布 $\text{指数}(\beta)$ 变量的和

应用：贝叶斯统计、降雨建模、保险

逻辑分布（选学）

建模增长曲线和二元选择模型

参数： $\mu$ （位置）， $s$ （尺度），其中 $s > 0$

支撑集： $x \in (-\infty, \infty)$

PDF： $f(x) = \frac{e^{-(x-\mu)/s}}{s(1+e^{-(x-\mu)/s})^2}$

矩计算：

累积分布函数为： $F(x) = \frac{1}{1+e^{-(x-\mu)/s}}$

对于标准逻辑分布，其中 $\mu = 0$ 且 $s = 1$ ： $f(x) = \frac{e^{-x}}{(1+e^{-x})^2}$

期望值可以使用对称性求得：

\begin{aligned} \mathbb{E}[X] &= \int_{-\infty}^{\infty} x \cdot \frac{e^{-x}}{(1+e^{-x})^2} dx \end{aligned}

令 $u = -x$ ，则：

\begin{aligned} \mathbb{E}[X] &= \int_{\infty}^{-\infty} (-u) \cdot \frac{e^{u}}{(1+e^{u})^2} (-du) \\ &= \int_{-\infty}^{\infty} (-u) \cdot \frac{e^{u}}{(1+e^{u})^2} du \end{aligned}

使用恒等式 $\frac{e^{u}}{(1+e^{u})^2} = \frac{e^{-u}}{(1+e^{-u})^2}$ ：

\begin{aligned} \mathbb{E}[X] &= -\int_{-\infty}^{\infty} u \cdot \frac{e^{-u}}{(1+e^{-u})^2} du \\ &= -\mathbb{E}[X] \end{aligned}

因此， $\mathbb{E}[X] = 0$ 。

对于方差：

\begin{aligned} \mathbb{E}[X^2] &= \int_{-\infty}^{\infty} x^2 \cdot \frac{e^{-x}}{(1+e^{-x})^2} dx \end{aligned}

使用替换 $u = \frac{1}{1+e^{-x}}$ ，这给出 $x = \ln\left(\frac{u}{1-u}\right)$ 和 $dx = \frac{du}{u(1-u)}$ ：

\begin{aligned} \mathbb{E}[X^2] &= \int_{0}^{1} \left[\ln\left(\frac{u}{1-u}\right)\right]^2 du \end{aligned}

这个积分等于 $\frac{\pi^2}{3}$ ，所以 $\mathbb{V}(X) = \frac{\pi^2}{3}$ 。

对于一般逻辑分布 $X = \mu + sZ$ ，其中 $Z \sim \text{逻辑}(0,1)$ ：

\begin{aligned} \mathbb{E}[X] &= \mu + s\mathbb{E}[Z] \\ &= \mu \end{aligned}

\begin{aligned} \mathbb{V}(X) &= s^2\mathbb{V}(Z) \\ &= \frac{s^2\pi^2}{3} \end{aligned}

性质：形状与正态分布相似但具有更重的尾部。两个Gumbel分布的差服从逻辑分布。

应用：逻辑回归、选择建模、增长曲线

更多关于随机变量及其性质的详细信息，请参见随机变量。

关于期望和方差计算，请参见期望和方差。

概率分布

概述

离散概率分布

伯努利分布

二项分布

超几何分布

泊松分布

连续概率分布

正态（高斯）分布

指数分布

伽马分布（选学）

逻辑分布（选学）

讨论