概率分布

概率分布是描述随机变量不同结果可能性的数学函数。它们为随机现象的概率结构提供了完整描述,是统计分析和机器学习的基础。

概述

概率分布可以根据随机变量的性质进行分类:离散(可数结果)、连续(区间内的不可数结果)或混合(组合)。每个分布的特征由其支撑集(可能值)、概率函数(离散为PMF,连续为PDF)、累积分布函数、参数和矩来描述。

Definition概率分布

概率分布是函数或规则,它为随机实验的结果或更一般地为样本空间中的事件分配概率。 设 XX 为随机变量,则 XX 的概率分布由其离散变量的概率质量函数(PMF)或连续变量的概率密度函数(PDF)定义。

不失一般性,我们可以将随机变量 XX 的分布定义如下: P(X=x)=f(x)P(X = x) = f(x) 对于离散变量,其中 f(x)f(x) 是PMF,而 P(Xx)=F(x)P(X \leq x) = F(x) 对于连续变量,其中 F(x)F(x) 是累积分布函数(CDF)。 PMF和PDF必须满足非负性和归一化性质:

  • 对于离散变量:xP(X=x)=1\sum_{x} P(X = x) = 1
  • 对于连续变量:f(x)dx=1\int_{-\infty}^{\infty} f(x) dx = 1

离散概率分布

伯努利分布

建模具有两个可能结果(成功/失败)的单次试验

参数pp(成功概率),其中 0p10 \leq p \leq 1

支撑集x{0,1}x \in \{0, 1\}

PMFP(X=x)=px(1p)1xP(X = x) = p^x(1-p)^{1-x}

矩计算

对于期望值:

E[X]=x=01xP(X=x)=0(1p)+1p=p\begin{aligned} \mathbb{E}[X] &= \sum_{x=0}^{1} x \cdot P(X = x) \\ &= 0 \cdot (1-p) + 1 \cdot p \\ &= p \end{aligned}

对于二阶矩:

E[X2]=x=01x2P(X=x)=02(1p)+12p=p\begin{aligned} \mathbb{E}[X^2] &= \sum_{x=0}^{1} x^2 \cdot P(X = x) \\ &= 0^2 \cdot (1-p) + 1^2 \cdot p \\ &= p \end{aligned}

因此,方差为:

V(X)=E[X2](E[X])2=pp2=p(1p)\begin{aligned} \mathbb{V}(X) &= \mathbb{E}[X^2] - (\mathbb{E}[X])^2 \\ &= p - p^2 \\ &= p(1-p) \end{aligned}

应用:硬币翻转、二元结果、指示变量


二项分布

建模 nn 次独立伯努利试验中的成功次数

参数nn(试验次数),pp(成功概率)

支撑集x{0,1,2,...,n}x \in \{0, 1, 2, ..., n\}

PMFP(X=x)=(nx)px(1p)nxP(X = x) = \binom{n}{x} p^x(1-p)^{n-x}

矩计算

期望值可以使用期望的线性性质推导。由于 X=i=1nXiX = \sum_{i=1}^{n} X_i,其中 Xi伯努利(p)X_i \sim \text{伯努利}(p)

E[X]=E[i=1nXi]=i=1nE[Xi]=i=1np=np\begin{aligned} \mathbb{E}[X] &= \mathbb{E}\left[\sum_{i=1}^{n} X_i\right] \\ &= \sum_{i=1}^{n} \mathbb{E}[X_i] \\ &= \sum_{i=1}^{n} p \\ &= np \end{aligned}

对于方差,由于 XiX_i 是独立的:

V(X)=V(i=1nXi)=i=1nV(Xi)=i=1np(1p)=np(1p)\begin{aligned} \mathbb{V}(X) &= \mathbb{V}\left(\sum_{i=1}^{n} X_i\right) \\ &= \sum_{i=1}^{n} \mathbb{V}(X_i) \\ &= \sum_{i=1}^{n} p(1-p) \\ &= np(1-p) \end{aligned}

或者,我们可以直接计算:

E[X]=x=0nx(nx)px(1p)nx=npx=1n(n1x1)px1(1p)nx=np\begin{aligned} \mathbb{E}[X] &= \sum_{x=0}^{n} x \binom{n}{x} p^x(1-p)^{n-x} \\ &= np\sum_{x=1}^{n} \binom{n-1}{x-1} p^{x-1}(1-p)^{n-x} \\ &= np \end{aligned}

应用:质量控制、调查抽样、临床试验


超几何分布

建模从有限总体中无放回抽取 nn 次的成功次数

参数NN(总体大小),KK(成功状态数),nn(抽取次数)

支撑集x{max(0,n(NK)),,min(n,K)}x \in \{\max(0, n-(N-K)), \ldots, \min(n, K)\}

PMFP(X=x)=(Kx)(NKnx)(Nn)P(X = x) = \frac{\binom{K}{x}\binom{N-K}{n-x}}{\binom{N}{n}}

矩计算

对于期望值,我们使用指示变量。设 Ij=1I_j = 1 如果第 jj 次抽取是成功,00 否则。则 X=j=1nIjX = \sum_{j=1}^{n} I_j

任何特定抽取是成功的概率为 P(Ij=1)=KNP(I_j = 1) = \frac{K}{N},所以:

E[X]=E[j=1nIj]=j=1nE[Ij]=j=1nKN=nKN\begin{aligned} \mathbb{E}[X] &= \mathbb{E}\left[\sum_{j=1}^{n} I_j\right] \\ &= \sum_{j=1}^{n} \mathbb{E}[I_j] \\ &= \sum_{j=1}^{n} \frac{K}{N} \\ &= n\frac{K}{N} \end{aligned}

对于方差,我们需要考虑抽取之间的依赖性:

V(X)=V(j=1nIj)=j=1nV(Ij)+2j<kCov(Ij,Ik)\begin{aligned} \mathbb{V}(X) &= \mathbb{V}\left(\sum_{j=1}^{n} I_j\right) \\ &= \sum_{j=1}^{n} \mathbb{V}(I_j) + 2\sum_{j < k} \text{Cov}(I_j, I_k) \end{aligned}

由于 V(Ij)=KN(1KN)\mathbb{V}(I_j) = \frac{K}{N}(1-\frac{K}{N})Cov(Ij,Ik)=K(NK)N2(N1)\text{Cov}(I_j, I_k) = -\frac{K(N-K)}{N^2(N-1)} 对于 jkj \neq k

V(X)=nKN(1KN)+n(n1)(K(NK)N2(N1))=nKNNKNn(n1)K(NK)N2(N1)=nK(NK)N2(1n1N1)=nK(NK)N2(NnN1)\begin{aligned} \mathbb{V}(X) &= n\frac{K}{N}\left(1-\frac{K}{N}\right) + n(n-1)\left(-\frac{K(N-K)}{N^2(N-1)}\right) \\ &= n\frac{K}{N}\frac{N-K}{N} - n(n-1)\frac{K(N-K)}{N^2(N-1)} \\ &= n\frac{K(N-K)}{N^2}\left(1 - \frac{n-1}{N-1}\right) \\ &= n\frac{K(N-K)}{N^2}\left(\frac{N-n}{N-1}\right) \end{aligned}

应用:无放回抽样、质量控制、生态研究


泊松分布

建模固定区间内发生的事件数量

参数λ\lambda(率参数),其中 λ>0\lambda > 0

支撑集x{0,1,2,...}x \in \{0, 1, 2, ...\}

PMFP(X=x)=eλλxx!P(X = x) = \frac{e^{-\lambda}\lambda^x}{x!}

矩计算

对于期望值:

E[X]=x=0xeλλxx!=eλx=1λx(x1)!=eλλx=1λx1(x1)!\begin{aligned} \mathbb{E}[X] &= \sum_{x=0}^{\infty} x \cdot \frac{e^{-\lambda}\lambda^x}{x!} \\ &= e^{-\lambda}\sum_{x=1}^{\infty} \frac{\lambda^x}{(x-1)!} \\ &= e^{-\lambda}\lambda\sum_{x=1}^{\infty} \frac{\lambda^{x-1}}{(x-1)!} \end{aligned}

k=x1k = x-1

E[X]=eλλk=0λkk!=eλλeλ=λ\begin{aligned} \mathbb{E}[X] &= e^{-\lambda}\lambda\sum_{k=0}^{\infty} \frac{\lambda^k}{k!} \\ &= e^{-\lambda}\lambda e^{\lambda} \\ &= \lambda \end{aligned}

对于二阶矩:

E[X2]=x=0x2eλλxx!=eλx=1xλx(x1)!\begin{aligned} \mathbb{E}[X^2] &= \sum_{x=0}^{\infty} x^2 \cdot \frac{e^{-\lambda}\lambda^x}{x!} \\ &= e^{-\lambda}\sum_{x=1}^{\infty} x \cdot \frac{\lambda^x}{(x-1)!} \end{aligned}

k=x1k = x-1

E[X2]=eλk=0(k+1)λk+1k!=eλλk=0(k+1)λkk!=eλλ(k=0kλkk!+k=0λkk!)=eλλ(λeλ+eλ)=λ(λ+1)\begin{aligned} \mathbb{E}[X^2] &= e^{-\lambda}\sum_{k=0}^{\infty} (k+1) \cdot \frac{\lambda^{k+1}}{k!} \\ &= e^{-\lambda}\lambda\sum_{k=0}^{\infty} (k+1) \cdot \frac{\lambda^k}{k!} \\ &= e^{-\lambda}\lambda\left(\sum_{k=0}^{\infty} k \cdot \frac{\lambda^k}{k!} + \sum_{k=0}^{\infty} \frac{\lambda^k}{k!}\right) \\ &= e^{-\lambda}\lambda(\lambda e^{\lambda} + e^{\lambda}) \\ &= \lambda(\lambda + 1) \end{aligned}

因此:

V(X)=E[X2](E[X])2=λ(λ+1)λ2=λ\begin{aligned} \mathbb{V}(X) &= \mathbb{E}[X^2] - (\mathbb{E}[X])^2 \\ &= \lambda(\lambda + 1) - \lambda^2 \\ &= \lambda \end{aligned}

性质:泊松分布是二项分布 B(n,p)B(n,p)nn \to \inftyp0p \to 0np=λnp = \lambda 时的极限。

应用:呼叫中心、交通流量、放射性衰变、稀有事件

连续概率分布

正态(高斯)分布

统计学中最重要的连续分布

参数μ\mu(均值),σ2\sigma^2(方差)

支撑集x(,)x \in (-\infty, \infty)

PDFf(x)=1σ2πe(xμ)22σ2f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

矩计算

对于标准正态分布 ZN(0,1)Z \sim N(0,1)

期望值为:

E[Z]=z12πez2/2dz=0\begin{aligned} \mathbb{E}[Z] &= \int_{-\infty}^{\infty} z \cdot \frac{1}{\sqrt{2\pi}} e^{-z^2/2} dz \\ &= 0 \end{aligned}

这是因为被积函数是奇函数且积分收敛。

对于方差:

E[Z2]=z212πez2/2dz\begin{aligned} \mathbb{E}[Z^2] &= \int_{-\infty}^{\infty} z^2 \cdot \frac{1}{\sqrt{2\pi}} e^{-z^2/2} dz \end{aligned}

使用分部积分,设 u=zu = zdv=zez2/2dzdv = z e^{-z^2/2} dz

E[Z2]=12π[zez2/2]+12πez2/2dz=0+1=1\begin{aligned} \mathbb{E}[Z^2] &= \frac{1}{\sqrt{2\pi}} \left[ -z e^{-z^2/2} \right]_{-\infty}^{\infty} + \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-z^2/2} dz \\ &= 0 + 1 \\ &= 1 \end{aligned}

因此,V(Z)=E[Z2](E[Z])2=10=1\mathbb{V}(Z) = \mathbb{E}[Z^2] - (\mathbb{E}[Z])^2 = 1 - 0 = 1

对于一般正态分布 X=μ+σZX = \mu + \sigma Z

E[X]=E[μ+σZ]=μ+σE[Z]=μ\begin{aligned} \mathbb{E}[X] &= \mathbb{E}[\mu + \sigma Z] \\ &= \mu + \sigma \mathbb{E}[Z] \\ &= \mu \end{aligned} V(X)=V[μ+σZ]=σ2V(Z)=σ2\begin{aligned} \mathbb{V}(X) &= \mathbb{V}[\mu + \sigma Z] \\ &= \sigma^2 \mathbb{V}(Z) \\ &= \sigma^2 \end{aligned}

性质:中心极限定理指出随机变量的和趋近于正态性。正态变量的线性组合是正态的。

可加性性质:如果 XN(μ1,σ12)X \sim N(\mu_1, \sigma_1^2)YN(μ2,σ22)Y \sim N(\mu_2, \sigma_2^2) 独立,则: X+YN(μ1+μ2,σ12+σ22)X + Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)

Proof可加性

XN(μ1,σ12)X \sim N(\mu_1, \sigma_1^2)YN(μ2,σ22)Y \sim N(\mu_2, \sigma_2^2) 为独立的正态随机变量。

我们可以写成 X=μ1+σ1Z1X = \mu_1 + \sigma_1 Z_1Y=μ2+σ2Z2Y = \mu_2 + \sigma_2 Z_2,其中 Z1,Z2N(0,1)Z_1, Z_2 \sim N(0,1) 是独立的标准正态变量。

那么: X+Y=(μ1+μ2)+σ1Z1+σ2Z2X + Y = (\mu_1 + \mu_2) + \sigma_1 Z_1 + \sigma_2 Z_2

由于 Z1Z_1Z2Z_2 独立,线性组合 σ1Z1+σ2Z2\sigma_1 Z_1 + \sigma_2 Z_2 也服从正态分布,其参数为:

  • 均值:E[σ1Z1+σ2Z2]=σ10+σ20=0\mathbb{E}[\sigma_1 Z_1 + \sigma_2 Z_2] = \sigma_1 \cdot 0 + \sigma_2 \cdot 0 = 0
  • 方差:V(σ1Z1+σ2Z2)=σ121+σ221=σ12+σ22\mathbb{V}(\sigma_1 Z_1 + \sigma_2 Z_2) = \sigma_1^2 \cdot 1 + \sigma_2^2 \cdot 1 = \sigma_1^2 + \sigma_2^2

因此: σ1Z1+σ2Z2N(0,σ12+σ22)\sigma_1 Z_1 + \sigma_2 Z_2 \sim N(0, \sigma_1^2 + \sigma_2^2)

所以: X+Y=(μ1+μ2)+(σ1Z1+σ2Z2)N(μ1+μ2,σ12+σ22)X + Y = (\mu_1 + \mu_2) + (\sigma_1 Z_1 + \sigma_2 Z_2) \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)

Proof使用矩生成函数

XN(μ,σ2)X \sim N(\mu, \sigma^2) 的矩生成函数为: MX(t)=eμt+12σ2t2M_X(t) = e^{\mu t + \frac{1}{2}\sigma^2 t^2}

对于独立的 XXYYMX+Y(t)=MX(t)MY(t)=eμ1t+12σ12t2eμ2t+12σ22t2=e(μ1+μ2)t+12(σ12+σ22)t2M_{X+Y}(t) = M_X(t) \cdot M_Y(t) = e^{\mu_1 t + \frac{1}{2}\sigma_1^2 t^2} \cdot e^{\mu_2 t + \frac{1}{2}\sigma_2^2 t^2} = e^{(\mu_1 + \mu_2)t + \frac{1}{2}(\sigma_1^2 + \sigma_2^2)t^2}

这是 N(μ1+μ2,σ12+σ22)N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2) 的矩生成函数,证明了结果。

应用:自然现象、测量误差、统计推断


指数分布

建模泊松过程中事件之间的时间

参数λ\lambda(率参数),其中 λ>0\lambda > 0

支撑集x[0,)x \in [0, \infty)

PDFf(x)=λeλxf(x) = \lambda e^{-\lambda x} 对于 x0x \geq 0

矩计算

对于期望值:

E[X]=0xλeλxdx\begin{aligned} \mathbb{E}[X] &= \int_{0}^{\infty} x \lambda e^{-\lambda x} dx \end{aligned}

使用分部积分,设 u=xu = xdv=λeλxdxdv = \lambda e^{-\lambda x} dx

E[X]=[xeλx]0+0eλxdx=0+[1λeλx]0=1λ\begin{aligned} \mathbb{E}[X] &= \left[ -x e^{-\lambda x} \right]_{0}^{\infty} + \int_{0}^{\infty} e^{-\lambda x} dx \\ &= 0 + \left[ -\frac{1}{\lambda} e^{-\lambda x} \right]_{0}^{\infty} \\ &= \frac{1}{\lambda} \end{aligned}

对于二阶矩:

E[X2]=0x2λeλxdx\begin{aligned} \mathbb{E}[X^2] &= \int_{0}^{\infty} x^2 \lambda e^{-\lambda x} dx \end{aligned}

使用分部积分,设 u=x2u = x^2dv=λeλxdxdv = \lambda e^{-\lambda x} dx

E[X2]=[x2eλx]0+02xeλxdx=0+2λ0xλeλxdx=2λ1λ=2λ2\begin{aligned} \mathbb{E}[X^2] &= \left[ -x^2 e^{-\lambda x} \right]_{0}^{\infty} + \int_{0}^{\infty} 2x e^{-\lambda x} dx \\ &= 0 + \frac{2}{\lambda} \int_{0}^{\infty} x \lambda e^{-\lambda x} dx \\ &= \frac{2}{\lambda} \cdot \frac{1}{\lambda} \\ &= \frac{2}{\lambda^2} \end{aligned}

因此:

V(X)=E[X2](E[X])2=2λ2(1λ)2=1λ2\begin{aligned} \mathbb{V}(X) &= \mathbb{E}[X^2] - (\mathbb{E}[X])^2 \\ &= \frac{2}{\lambda^2} - \left(\frac{1}{\lambda}\right)^2 \\ &= \frac{1}{\lambda^2} \end{aligned}

性质:无记忆性:P(X>s+tX>s)=P(X>t)P(X > s+t | X > s) = P(X > t)

应用:可靠性工程、排队论、生存分析


伽马分布(选学)

推广指数分布,建模等待时间

参数α\alpha(形状),β\beta(率),都 >0> 0

支撑集x[0,)x \in [0, \infty)

PDFf(x)=βαΓ(α)xα1eβxf(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} 对于 x0x \geq 0

矩计算

矩生成函数为:

MX(t)=E[etX]=0etxβαΓ(α)xα1eβxdx=βαΓ(α)0xα1e(βt)xdx=βαΓ(α)Γ(α)(βt)α=(ββt)α 对于 t<β\begin{aligned} M_X(t) &= \mathbb{E}[e^{tX}] \\ &= \int_{0}^{\infty} e^{tx} \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} dx \\ &= \frac{\beta^\alpha}{\Gamma(\alpha)} \int_{0}^{\infty} x^{\alpha-1} e^{-(\beta-t)x} dx \\ &= \frac{\beta^\alpha}{\Gamma(\alpha)} \cdot \frac{\Gamma(\alpha)}{(\beta-t)^\alpha} \\ &= \left(\frac{\beta}{\beta-t}\right)^\alpha \text{ 对于 } t < \beta \end{aligned}

使用MGF求矩:

E[X]=MX(0)=αβα(βt)α1t=0=αβαβα1=αβ\begin{aligned} \mathbb{E}[X] &= M_X'(0) \\ &= \alpha \beta^{\alpha} (\beta-t)^{-\alpha-1} \Big|_{t=0} \\ &= \alpha \beta^{\alpha} \beta^{-\alpha-1} \\ &= \frac{\alpha}{\beta} \end{aligned} E[X2]=MX(0)=α(α+1)βα(βt)α2t=0=α(α+1)β2\begin{aligned} \mathbb{E}[X^2] &= M_X''(0) \\ &= \alpha(\alpha+1)\beta^{\alpha} (\beta-t)^{-\alpha-2} \Big|_{t=0} \\ &= \frac{\alpha(\alpha+1)}{\beta^2} \end{aligned}

因此:

V(X)=E[X2](E[X])2=α(α+1)β2α2β2=αβ2\begin{aligned} \mathbb{V}(X) &= \mathbb{E}[X^2] - (\mathbb{E}[X])^2 \\ &= \frac{\alpha(\alpha+1)}{\beta^2} - \frac{\alpha^2}{\beta^2} \\ &= \frac{\alpha}{\beta^2} \end{aligned}

性质α\alpha 个独立指数分布 指数(β)\text{指数}(\beta) 变量的和

应用:贝叶斯统计、降雨建模、保险


逻辑分布(选学)

建模增长曲线和二元选择模型

参数μ\mu(位置),ss(尺度),其中 s>0s > 0

支撑集x(,)x \in (-\infty, \infty)

PDFf(x)=e(xμ)/ss(1+e(xμ)/s)2f(x) = \frac{e^{-(x-\mu)/s}}{s(1+e^{-(x-\mu)/s})^2}

矩计算

累积分布函数为: F(x)=11+e(xμ)/sF(x) = \frac{1}{1+e^{-(x-\mu)/s}}

对于标准逻辑分布,其中 μ=0\mu = 0s=1s = 1f(x)=ex(1+ex)2f(x) = \frac{e^{-x}}{(1+e^{-x})^2}

期望值可以使用对称性求得:

E[X]=xex(1+ex)2dx\begin{aligned} \mathbb{E}[X] &= \int_{-\infty}^{\infty} x \cdot \frac{e^{-x}}{(1+e^{-x})^2} dx \end{aligned}

u=xu = -x,则:

E[X]=(u)eu(1+eu)2(du)=(u)eu(1+eu)2du\begin{aligned} \mathbb{E}[X] &= \int_{\infty}^{-\infty} (-u) \cdot \frac{e^{u}}{(1+e^{u})^2} (-du) \\ &= \int_{-\infty}^{\infty} (-u) \cdot \frac{e^{u}}{(1+e^{u})^2} du \end{aligned}

使用恒等式 eu(1+eu)2=eu(1+eu)2\frac{e^{u}}{(1+e^{u})^2} = \frac{e^{-u}}{(1+e^{-u})^2}

E[X]=ueu(1+eu)2du=E[X]\begin{aligned} \mathbb{E}[X] &= -\int_{-\infty}^{\infty} u \cdot \frac{e^{-u}}{(1+e^{-u})^2} du \\ &= -\mathbb{E}[X] \end{aligned}

因此,E[X]=0\mathbb{E}[X] = 0

对于方差:

E[X2]=x2ex(1+ex)2dx\begin{aligned} \mathbb{E}[X^2] &= \int_{-\infty}^{\infty} x^2 \cdot \frac{e^{-x}}{(1+e^{-x})^2} dx \end{aligned}

使用替换 u=11+exu = \frac{1}{1+e^{-x}},这给出 x=ln(u1u)x = \ln\left(\frac{u}{1-u}\right)dx=duu(1u)dx = \frac{du}{u(1-u)}

E[X2]=01[ln(u1u)]2du\begin{aligned} \mathbb{E}[X^2] &= \int_{0}^{1} \left[\ln\left(\frac{u}{1-u}\right)\right]^2 du \end{aligned}

这个积分等于 π23\frac{\pi^2}{3},所以 V(X)=π23\mathbb{V}(X) = \frac{\pi^2}{3}

对于一般逻辑分布 X=μ+sZX = \mu + sZ,其中 Z逻辑(0,1)Z \sim \text{逻辑}(0,1)

E[X]=μ+sE[Z]=μ\begin{aligned} \mathbb{E}[X] &= \mu + s\mathbb{E}[Z] \\ &= \mu \end{aligned} V(X)=s2V(Z)=s2π23\begin{aligned} \mathbb{V}(X) &= s^2\mathbb{V}(Z) \\ &= \frac{s^2\pi^2}{3} \end{aligned}

性质:形状与正态分布相似但具有更重的尾部。两个Gumbel分布的差服从逻辑分布。

应用:逻辑回归、选择建模、增长曲线


更多关于随机变量及其性质的详细信息,请参见随机变量

关于期望和方差计算,请参见期望和方差