期望和方差

期望和方差是概率论中的两个基本概念,它们描述了随机变量分布的中心趋势和离散程度。

期望值(均值)

期望值,也称为均值或期望,表示随机变量在多次试验中的平均值。

对于离散随机变量

E[X]=μX=xxpX(x)\mathbb{E}[X] = \mu_X = \sum_{x} x \cdot p_X(x)

其中:

  • pX(x)p_X(x) 是概率质量函数(PMF)
  • 求和是对XX的所有可能值进行的

性质

  • 线性和齐次性:E[aX+b]=aE[X]+b\mathbb{E}[aX + b] = a\mathbb{E}[X] + b
  • 对于两个随机变量:E[X+Y]=E[X]+E[Y]\mathbb{E}[X + Y] = \mathbb{E}[X] + \mathbb{E}[Y]
  • 对于独立随机变量:E[XY]=E[X]E[Y]\mathbb{E}[XY] = \mathbb{E}[X]\mathbb{E}[Y]

关键性质的证明

Proof线性性

对于 a,bRa, b \in \mathbb{R}

E[aX+b]=x(ax+b)pX(x)=axxpX(x)+bxpX(x)=aE[X]+b\begin{aligned} \mathbb{E}[aX + b] &= \sum_{x} (ax + b) \cdot p_X(x) \\ &= a\sum_{x} x \cdot p_X(x) + b\sum_{x} p_X(x) \\ &= a\mathbb{E}[X] + b \end{aligned}
Proof可加性
E[X+Y]=xy(x+y)pX,Y(x,y)=xyxpX,Y(x,y)+xyypX,Y(x,y)=E[X]+E[Y]\begin{aligned} \mathbb{E}[X + Y] &= \sum_{x}\sum_{y} (x + y) \cdot p_{X,Y}(x,y) \\ &= \sum_{x}\sum_{y} x \cdot p_{X,Y}(x,y) + \sum_{x}\sum_{y} y \cdot p_{X,Y}(x,y) \\ &= \mathbb{E}[X] + \mathbb{E}[Y] \end{aligned}
Proof独立变量的乘积

如果XXYY独立,则pX,Y(x,y)=pX(x)pY(y)p_{X,Y}(x,y) = p_X(x)p_Y(y),所以:

E[XY]=xyxypX,Y(x,y)=xyxypX(x)pY(y)=(xxpX(x))(yypY(y))=E[X]E[Y]\begin{aligned} \mathbb{E}[XY] &= \sum_{x}\sum_{y} xy \cdot p_{X,Y}(x,y) \\ &= \sum_{x}\sum_{y} xy \cdot p_X(x)p_Y(y) \\ &= \left(\sum_{x} x p_X(x)\right)\left(\sum_{y} y p_Y(y)\right) \\ &= \mathbb{E}[X]\mathbb{E}[Y] \end{aligned}

对于连续随机变量

E[X]=μX=xfX(x)dx\mathbb{E}[X] = \mu_X = \int_{-\infty}^{\infty} x \cdot f_X(x)dx

其中:

  • fX(x)f_X(x) 是概率密度函数(PDF)

方差

方差衡量随机变量的值偏离其均值的程度。

Definition方差

V(X)=σX2=E[(XμX)2]=E[X2](E[X])2\mathbb{V}(X) = \sigma_X^2 = \mathbb{E}[(X - \mu_X)^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2

对于离散随机变量

V(X)=x(xμX)2pX(x)\mathbb{V}(X) = \sum_{x} (x - \mu_X)^2 \cdot p_X(x)

对于连续随机变量

V(X)=(xμX)2fX(x)dx\mathbb{V}(X) = \int_{-\infty}^{\infty} (x - \mu_X)^2 \cdot f_X(x)dx

标准差

标准差是方差的平方根: σX=V(X)\sigma_X = \sqrt{\mathbb{V}(X)}

方差的性质

  • V(X)0\mathbb{V}(X) \geq 0
  • V(a)=0\mathbb{V}(a) = 0 对于任何常数aa
  • V(aX)=a2V(X)\mathbb{V}(aX) = a^2 \mathbb{V}(X)
  • V(X+a)=V(X)\mathbb{V}(X + a) = \mathbb{V}(X)
  • 对于独立随机变量:V(X+Y)=V(X)+V(Y)\mathbb{V}(X + Y) = \mathbb{V}(X) + \mathbb{V}(Y)

方差性质的证明

Proof缩放性质

对于 aRa \in \mathbb{R}

V(aX)=E[(aXE[aX])2]=E[(aXaE[X])2]=E[a2(XE[X])2]=a2E[(XE[X])2]=a2V(X)\begin{aligned} \mathbb{V}(aX) &= \mathbb{E}[(aX - \mathbb{E}[aX])^2] \\ &= \mathbb{E}[(aX - a\mathbb{E}[X])^2] \\ &= \mathbb{E}[a^2(X - \mathbb{E}[X])^2] \\ &= a^2\mathbb{E}[(X - \mathbb{E}[X])^2] \\ &= a^2\mathbb{V}(X) \end{aligned}
Proof平移不变性
V(X+a)=E[(X+aE[X+a])2]=E[(X+aE[X]a)2]=E[(XE[X])2]=V(X)\begin{aligned} \mathbb{V}(X + a) &= \mathbb{E}[(X + a - \mathbb{E}[X + a])^2] \\ &= \mathbb{E}[(X + a - \mathbb{E}[X] - a)^2] \\ &= \mathbb{E}[(X - \mathbb{E}[X])^2] \\ &= \mathbb{V}(X) \end{aligned}
Proof独立变量的可加性

如果XXYY独立:

V(X+Y)=E[(X+Y)2](E[X+Y])2=E[X2+2XY+Y2](E[X]+E[Y])2=E[X2]+2E[X]E[Y]+E[Y2]E[X]22E[X]E[Y]E[Y]2=(E[X2]E[X]2)+(E[Y2]E[Y]2)=V(X)+V(Y)\begin{aligned} \mathbb{V}(X + Y) &= \mathbb{E}[(X + Y)^2] - (\mathbb{E}[X + Y])^2 \\ &= \mathbb{E}[X^2 + 2XY + Y^2] - (\mathbb{E}[X] + \mathbb{E}[Y])^2 \\ &= \mathbb{E}[X^2] + 2\mathbb{E}[X]\mathbb{E}[Y] + \mathbb{E}[Y^2] - \mathbb{E}[X]^2 - 2\mathbb{E}[X]\mathbb{E}[Y] - \mathbb{E}[Y]^2 \\ &= (\mathbb{E}[X^2] - \mathbb{E}[X]^2) + (\mathbb{E}[Y^2] - \mathbb{E}[Y]^2) \\ &= \mathbb{V}(X) + \mathbb{V}(Y) \end{aligned}

例子

Example离散情况(掷骰子)

对于一个公平的六面骰子:

  • PMF:pX(x)=16p_X(x) = \frac{1}{6},对于x{1,2,3,4,5,6}x \in \{1, 2, 3, 4, 5, 6\}

期望值E[X]=x=16x16=1+2+3+4+5+66=216=3.5\mathbb{E}[X] = \sum_{x=1}^{6} x \cdot \frac{1}{6} = \frac{1+2+3+4+5+6}{6} = \frac{21}{6} = 3.5

方差E[X2]=x=16x216=1+4+9+16+25+366=916\mathbb{E}[X^2] = \sum_{x=1}^{6} x^2 \cdot \frac{1}{6} = \frac{1+4+9+16+25+36}{6} = \frac{91}{6} V(X)=E[X2](E[X])2=916(3.5)2=916494=18214712=35122.92\mathbb{V}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 = \frac{91}{6} - (3.5)^2 = \frac{91}{6} - \frac{49}{4} = \frac{182 - 147}{12} = \frac{35}{12} \approx 2.92

Example连续情况(正态分布)

对于XN(μ,σ2)X \sim N(\mu, \sigma^2)

  • PDF:fX(x)=1σ2πe(xμ)22σ2f_X(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

期望值E[X]=μ\mathbb{E}[X] = \mu

方差V(X)=σ2\mathbb{V}(X) = \sigma^2

Example连续情况(均匀分布)

对于XU(a,b)X \sim U(a, b)

  • PDF:fX(x)=1baf_X(x) = \frac{1}{b-a},对于axba \leq x \leq b

期望值E[X]=abx1badx=a+b2\mathbb{E}[X] = \int_a^b x \cdot \frac{1}{b-a} dx = \frac{a+b}{2}

方差V(X)=ab(xa+b2)21badx=(ba)212\mathbb{V}(X) = \int_a^b \left(x - \frac{a+b}{2}\right)^2 \cdot \frac{1}{b-a} dx = \frac{(b-a)^2}{12}

随机变量函数的期望

当我们对随机变量应用函数时,会得到一个新的随机变量。计算这个新随机变量的期望是概率论中的重要问题。

无意识统计学家定律(LOTUS)

计算随机变量函数期望的核心原理是无意识统计学家定律(Law of the Unconscious Statistician, LOTUS)。该定律指出:要计算 E[g(X)]\mathbb{E}[g(X)],我们不需要先找到 g(X)g(X) 的分布,而是可以直接使用 XX 的原始分布进行计算。

计算公式

对于函数 g:RRg: \mathbb{R} \to \mathbb{R} 和随机变量 XXg(X)g(X) 的期望为:

E[g(X)]={xg(x)pX(x)(离散)g(x)fX(x)dx(连续)\mathbb{E}[g(X)] = \begin{cases} \sum_{x} g(x) \cdot p_X(x) & \text{(离散)} \\ \int_{-\infty}^{\infty} g(x) \cdot f_X(x) dx & \text{(连续)} \end{cases}

重要性质

  1. 线性性E[ag(X)+bh(X)]=aE[g(X)]+bE[h(X)]\mathbb{E}[a \cdot g(X) + b \cdot h(X)] = a\mathbb{E}[g(X)] + b\mathbb{E}[h(X)]
  2. 单调性:如果对于所有 xx 都有 g(x)h(x)g(x) \leq h(x),那么 E[g(X)]E[h(X)]\mathbb{E}[g(X)] \leq \mathbb{E}[h(X)]

应用实例

Example平方函数的期望

对于任意随机变量 XX,计算 E[X2]\mathbb{E}[X^2]

  • 离散情况:E[X2]=xx2pX(x)\mathbb{E}[X^2] = \sum_{x} x^2 \cdot p_X(x)
  • 连续情况:E[X2]=x2fX(x)dx\mathbb{E}[X^2] = \int_{-\infty}^{\infty} x^2 \cdot f_X(x) dx

这个结果在计算方差时至关重要:V(X)=E[X2](E[X])2\mathbb{V}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2

Example指数函数的期望

对于任意随机变量 XX,计算 E[etX]\mathbb{E}[e^{tX}]

  • 离散情况:E[etX]=xetxpX(x)\mathbb{E}[e^{tX}] = \sum_{x} e^{tx} \cdot p_X(x)
  • 连续情况:E[etX]=etxfX(x)dx\mathbb{E}[e^{tX}] = \int_{-\infty}^{\infty} e^{tx} \cdot f_X(x) dx

这就是矩生成函数的定义,在概率论中有广泛应用。

数值估计方法

当函数复杂或分布非标准时,解析解可能难以获得。此时可使用泰勒级数近似进行数值估计。

泰勒级数近似法

对于均值为 μ\mu、方差为 σ2\sigma^2 的随机变量 XX,函数 f(X)f(X) 的期望和方差可以通过泰勒展开近似。

Proof期望的近似推导
  1. μ\mu 处对 f(X)f(X) 进行二阶泰勒展开: f(X)=f(μ)+f(μ)(Xμ)+f(μ)2(Xμ)2+R2f(X) = f(\mu) + f'(\mu)(X-\mu) + \frac{f''(\mu)}{2}(X-\mu)^2 + R_2 其中 R2R_2 是余项。

  2. 对两边取期望: E[f(X)]=E[f(μ)]+E[f(μ)(Xμ)]+E[f(μ)2(Xμ)2]+E[R2]\mathbb{E}[f(X)] = \mathbb{E}[f(\mu)] + \mathbb{E}[f'(\mu)(X-\mu)] + \mathbb{E}\left[\frac{f''(\mu)}{2}(X-\mu)^2\right] + \mathbb{E}[R_2]

  3. 由于 f(μ)f(\mu)f(μ)f'(\mu)f(μ)f''(\mu) 都是常数: E[f(X)]=f(μ)+f(μ)E[Xμ]+f(μ)2E[(Xμ)2]+E[R2]\mathbb{E}[f(X)] = f(\mu) + f'(\mu)\mathbb{E}[X-\mu] + \frac{f''(\mu)}{2}\mathbb{E}[(X-\mu)^2] + \mathbb{E}[R_2]

  4. 利用 E[Xμ]=0\mathbb{E}[X-\mu] = 0E[(Xμ)2]=σ2\mathbb{E}[(X-\mu)^2] = \sigma^2,并忽略高阶余项: E[f(X)]f(μ)+f(μ)2σ2\mathbb{E}[f(X)] \approx f(\mu) + \frac{f''(\mu)}{2}\sigma^2

Proof方差的近似推导
  1. 使用一阶泰勒展开(对于方差计算,一阶通常足够): f(X)f(μ)+f(μ)(Xμ)f(X) \approx f(\mu) + f'(\mu)(X-\mu)

  2. 由于 f(μ)f(\mu) 是常数,它不影响方差: V[f(X)]V[f(μ)(Xμ)]\mathbb{V}[f(X)] \approx \mathbb{V}[f'(\mu)(X-\mu)]

  3. 常数因子可以提出: V[f(X)][f(μ)]2V[Xμ]\mathbb{V}[f(X)] \approx [f'(\mu)]^2 \mathbb{V}[X-\mu]

  4. 由于 V[Xμ]=V[X]=σ2\mathbb{V}[X-\mu] = \mathbb{V}[X] = \sigma^2V[f(X)][f(μ)]2σ2\mathbb{V}[f(X)] \approx [f'(\mu)]^2 \sigma^2

总结公式

E[f(X)]f(μ)+f(μ)σ22V[f(X)](f(μ))2σ2\begin{aligned} \mathbb{E}\left[f(X)\right] &\approx f(\mu) + f''(\mu)\frac{\sigma^2}{2} \\ \mathbb{V}\left[f(X)\right] &\approx \left(f'(\mu)\right)^2\sigma^2 \end{aligned}

近似精度说明

  • 期望的近似使用了二阶展开,精度较高
  • 方差的近似使用了一阶展开,对于非线性较强的函数可能需要更高阶项
  • f(X)f(X) 是线性函数时,近似结果是精确的
  • XX 的分布越集中(σ2\sigma^2 越小),近似效果越好

协方差和相关系数

当处理多个随机变量时,我们经常想要衡量它们之间的关系。

协方差

Cov(X,Y)=E[(XμX)(YμY)]=E[XY]E[X]E[Y]\text{Cov}(X,Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)] = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]

相关系数

ρX,Y=Cov(X,Y)σXσY\rho_{X,Y} = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}

性质

  • 1ρX,Y1-1 \leq \rho_{X,Y} \leq 1
  • ρ=1\rho = 1:完全正线性关系
  • ρ=1\rho = -1:完全负线性关系
  • ρ=0\rho = 0:无线性关系(但可能有非线性关系)

常见分布及其矩

分布期望值方差
伯努利(p)ppp(1p)p(1-p)
二项(n,p)npnpnp(1p)np(1-p)
泊松(λ)λ\lambdaλ\lambda
均匀(a,b)a+b2\frac{a+b}{2}(ba)212\frac{(b-a)^2}{12}
正态(μ,σ²)μ\muσ2\sigma^2
指数(λ)1λ\frac{1}{\lambda}1λ2\frac{1}{\lambda^2}

重要定理

Theorem大数定律

对于具有均值μ\mu的独立同分布随机变量X1,X2,...,XnX_1, X_2, ..., X_n1ni=1nXiPμ 当 n\frac{1}{n}\sum_{i=1}^{n} X_i \xrightarrow{P} \mu \text{ 当 } n \to \infty

Theorem中心极限定理

对于具有均值μ\mu和方差σ2\sigma^2的独立同分布随机变量: i=1nXinμσnDN(0,1) 当 n\frac{\sum_{i=1}^{n} X_i - n\mu}{\sigma\sqrt{n}} \xrightarrow{D} N(0,1) \text{ 当 } n \to \infty

多个随机变量的期望

当处理多个随机变量的函数时,我们需要理解如何计算它们的期望。

多变量函数的期望

对于两个随机变量的函数g(X,Y)g(X,Y),期望使用联合分布计算:

E[g(X,Y)]={xyg(x,y)pX,Y(x,y)(离散)R2g(x,y)fX,Y(x,y)dxdy(连续)\mathbb{E}[g(X,Y)] = \begin{cases} \sum_{x}\sum_{y} g(x,y) \cdot p_{X,Y}(x,y) & \text{(离散)} \\ \iint_{\mathbb{R}^2} g(x,y) \cdot f_{X,Y}(x,y) dx dy & \text{(连续)} \end{cases}

关键性质

从这个定义,我们推导出重要性质:

  1. 线性性E[X+Y]=E[X]+E[Y]\mathbb{E}[X + Y] = \mathbb{E}[X] + \mathbb{E}[Y](总是成立)
  2. 乘积E[XY]=E[X]E[Y]\mathbb{E}[XY] = \mathbb{E}[X]\mathbb{E}[Y](仅在XXYY独立时成立)

从联合分布计算期望

连续情况的几何解释

对于联合概率密度函数f(x,y)f(x,y),计算E[X]\mathbb{E}[X]涉及在整个平面上积分:

E[X]=R2xf(x,y)dxdy\mathbb{E}[X] = \iint_{\mathbb{R}^2} x \cdot f(x,y) dx dy

这可以在几何上理解为找到联合密度形成的三维曲面在xx方向的”质心”。

计算可以通过两种等效方式进行:

  1. 直接积分:在整个平面上对xf(x,y)x \cdot f(x,y)积分
  2. 使用边缘密度:首先找到fX(x)=f(x,y)dyf_X(x) = \int_{-\infty}^{\infty} f(x,y) dy,然后计算E[X]=xfX(x)dx\mathbb{E}[X] = \int_{-\infty}^{\infty} x \cdot f_X(x) dx

第二种方法有效是因为: E[X]=xf(x,y)dydx=x(f(x,y)dy)dx=xfX(x)dx\mathbb{E}[X] = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x \cdot f(x,y) dy dx = \int_{-\infty}^{\infty} x \left(\int_{-\infty}^{\infty} f(x,y) dy\right) dx = \int_{-\infty}^{\infty} x \cdot f_X(x) dx

与离散情况的联系

类似地,对于离散随机变量: E[X]=xyxpX,Y(x,y)=xx(ypX,Y(x,y))=xxpX(x)\mathbb{E}[X] = \sum_{x}\sum_{y} x \cdot p_{X,Y}(x,y) = \sum_{x} x \left(\sum_{y} p_{X,Y}(x,y)\right) = \sum_{x} x \cdot p_X(x)

这表明无论我们直接使用联合分布还是先计算边缘分布,我们都得到相同的期望。

条件期望

给定X=xX = xYY的条件期望为:

E[YX=x]={yypYX(yx)(离散)yfYX(yx)dy(连续)\mathbb{E}[Y|X = x] = \begin{cases} \sum_{y} y \cdot p_{Y|X}(y|x) & \text{(离散)} \\ \int_{-\infty}^{\infty} y \cdot f_{Y|X}(y|x) dy & \text{(连续)} \end{cases}

这导出了全期望公式: E[Y]=E[E[YX]]\mathbb{E}[Y] = \mathbb{E}[\mathbb{E}[Y|X]]