大数弱定律

概览

大数弱定律(Weak Law of Large Numbers, WLLN)描述大量独立同分布随机变量的样本均值会以概率收敛的方式靠近真实均值。

Theorem大数弱定律

X1,X2,,XnX_1, X_2, \ldots, X_n 是一列独立同分布随机变量,并且

E[Xi]=μ,V(Xi)=σ2<.\mathbb{E}[X_i] = \mu,\qquad \mathbb{V}(X_i)=\sigma^2 < \infty.

定义样本均值

Xˉn=1ni=1nXi.\bar{X}_n = \frac{1}{n}\sum_{i=1}^{n}X_i.

则对任意 ϵ>0\epsilon > 0

limnP(Xˉnμϵ)=0.\lim_{n\to\infty}P(|\bar{X}_n-\mu|\geq\epsilon)=0.

等价地,

XˉnPμ,n.\bar{X}_n \xrightarrow{P} \mu,\qquad n\to\infty.

这里的收敛方式称为依概率收敛。

Proof使用 Chebyshev 不等式

Step 1: 计算 Xˉn\bar{X}_n 的期望

E[Xˉn]=E[1ni=1nXi]=1ni=1nE[Xi]=μ.\mathbb{E}[\bar{X}_n] = \mathbb{E}\left[\frac{1}{n}\sum_{i=1}^{n}X_i\right] = \frac{1}{n}\sum_{i=1}^{n}\mathbb{E}[X_i] = \mu.

Step 2: 计算 Xˉn\bar{X}_n 的方差

由于 XiX_i 相互独立,

V(Xˉn)=V(1ni=1nXi)=1n2i=1nV(Xi)=σ2n.\mathbb{V}(\bar{X}_n) = \mathbb{V}\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right) = \frac{1}{n^2}\sum_{i=1}^{n}\mathbb{V}(X_i) = \frac{\sigma^2}{n}.

Step 3: 使用 Chebyshev 不等式

对任意 ϵ>0\epsilon > 0

P(Xˉnμϵ)V(Xˉn)ϵ2=σ2nϵ2.P(|\bar{X}_n-\mu|\geq\epsilon) \leq \frac{\mathbb{V}(\bar{X}_n)}{\epsilon^2} = \frac{\sigma^2}{n\epsilon^2}.

Step 4: 取极限

limnP(Xˉnμϵ)limnσ2nϵ2=0.\lim_{n\to\infty}P(|\bar{X}_n-\mu|\geq\epsilon) \leq \lim_{n\to\infty}\frac{\sigma^2}{n\epsilon^2} = 0.

概率非负,因此该极限只能为 00

直观解释

大数弱定律说明,当样本数量足够大时,样本均值 Xˉn\bar{X}_n 以高概率接近总体均值 μ\mu。它并不是说每一次有限样本都会很接近,而是说偏离任意固定误差 ϵ\epsilon 的概率会趋于 00

应用

  1. 统计估计:解释为什么可以用样本平均估计总体参数。
  2. 风险池化:保险和风险管理依赖大量独立样本带来的稳定性。
  3. 质量控制:用样本均值监控生产或系统过程。
  4. 随机模拟:Monte Carlo 方法依赖样本均值收敛到期望。

与强大数定律的关系

强大数定律(Strong Law of Large Numbers, SLLN)给出几乎处处收敛:

P(limnXˉn=μ)=1.P\left(\lim_{n\to\infty}\bar{X}_n=\mu\right)=1.

强大数定律能推出大数弱定律,但反过来一般不成立。对很多基础统计应用来说,大数弱定律已经足够说明样本均值的稳定性。

Example抛硬币

对一枚公平硬币,设第 ii 次投掷结果为

Xi={1,正面;0,反面.X_i = \begin{cases} 1, & \text{正面};\\ 0, & \text{反面}. \end{cases}

μ=E[Xi]=0.5\mu=\mathbb{E}[X_i]=0.5σ2=V(Xi)=0.25\sigma^2=\mathbb{V}(X_i)=0.25

nn 次投掷中正面的比例就是 Xˉn\bar{X}_n。由大数弱定律,

limnP(Xˉn0.5ϵ)=0.\lim_{n\to\infty}P(|\bar{X}_n-0.5|\geq\epsilon)=0.

也就是说,投掷次数增加时,正面比例会以概率收敛的方式靠近 0.50.5

更多关于期望和方差的内容见期望和方差