期望和方差

期望和方差是概率论中的两个基本概念，它们描述了随机变量分布的中心趋势和离散程度。

期望值（均值）

期望值，也称为均值或期望，表示随机变量在多次试验中的平均值。

对于离散随机变量

$\mathbb{E}[X] = \mu_X = \sum_{x} x \cdot p_X(x)$

其中：

$p_X(x)$ 是概率质量函数（PMF）
求和是对 $X$ 的所有可能值进行的

性质：

线性和齐次性： $\mathbb{E}[aX + b] = a\mathbb{E}[X] + b$
对于两个随机变量： $\mathbb{E}[X + Y] = \mathbb{E}[X] + \mathbb{E}[Y]$
对于独立随机变量： $\mathbb{E}[XY] = \mathbb{E}[X]\mathbb{E}[Y]$

关键性质的证明

Proof线性性

对于 $a, b \in \mathbb{R}$

\begin{aligned} \mathbb{E}[aX + b] &= \sum_{x} (ax + b) \cdot p_X(x) \\ &= a\sum_{x} x \cdot p_X(x) + b\sum_{x} p_X(x) \\ &= a\mathbb{E}[X] + b \end{aligned}

Proof可加性

\begin{aligned} \mathbb{E}[X + Y] &= \sum_{x}\sum_{y} (x + y) \cdot p_{X,Y}(x,y) \\ &= \sum_{x}\sum_{y} x \cdot p_{X,Y}(x,y) + \sum_{x}\sum_{y} y \cdot p_{X,Y}(x,y) \\ &= \mathbb{E}[X] + \mathbb{E}[Y] \end{aligned}

Proof独立变量的乘积

如果 $X$ 和 $Y$ 独立，则 $p_{X,Y}(x,y) = p_X(x)p_Y(y)$ ，所以：

\begin{aligned} \mathbb{E}[XY] &= \sum_{x}\sum_{y} xy \cdot p_{X,Y}(x,y) \\ &= \sum_{x}\sum_{y} xy \cdot p_X(x)p_Y(y) \\ &= \left(\sum_{x} x p_X(x)\right)\left(\sum_{y} y p_Y(y)\right) \\ &= \mathbb{E}[X]\mathbb{E}[Y] \end{aligned}

对于连续随机变量

$\mathbb{E}[X] = \mu_X = \int_{-\infty}^{\infty} x \cdot f_X(x)dx$

其中：

$f_X(x)$ 是概率密度函数（PDF）

方差

方差衡量随机变量的值偏离其均值的程度。

Definition方差

$\mathbb{V}(X) = \sigma_X^2 = \mathbb{E}[(X - \mu_X)^2] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2$

对于离散随机变量

$\mathbb{V}(X) = \sum_{x} (x - \mu_X)^2 \cdot p_X(x)$

对于连续随机变量

$\mathbb{V}(X) = \int_{-\infty}^{\infty} (x - \mu_X)^2 \cdot f_X(x)dx$

标准差

标准差是方差的平方根： $\sigma_X = \sqrt{\mathbb{V}(X)}$

方差的性质

$\mathbb{V}(X) \geq 0$
$\mathbb{V}(a) = 0$ 对于任何常数 $a$
$\mathbb{V}(aX) = a^2 \mathbb{V}(X)$
$\mathbb{V}(X + a) = \mathbb{V}(X)$
对于独立随机变量： $\mathbb{V}(X + Y) = \mathbb{V}(X) + \mathbb{V}(Y)$

方差性质的证明

Proof缩放性质

对于 $a \in \mathbb{R}$

\begin{aligned} \mathbb{V}(aX) &= \mathbb{E}[(aX - \mathbb{E}[aX])^2] \\ &= \mathbb{E}[(aX - a\mathbb{E}[X])^2] \\ &= \mathbb{E}[a^2(X - \mathbb{E}[X])^2] \\ &= a^2\mathbb{E}[(X - \mathbb{E}[X])^2] \\ &= a^2\mathbb{V}(X) \end{aligned}

Proof平移不变性

\begin{aligned} \mathbb{V}(X + a) &= \mathbb{E}[(X + a - \mathbb{E}[X + a])^2] \\ &= \mathbb{E}[(X + a - \mathbb{E}[X] - a)^2] \\ &= \mathbb{E}[(X - \mathbb{E}[X])^2] \\ &= \mathbb{V}(X) \end{aligned}

Proof独立变量的可加性

如果 $X$ 和 $Y$ 独立：

\begin{aligned} \mathbb{V}(X + Y) &= \mathbb{E}[(X + Y)^2] - (\mathbb{E}[X + Y])^2 \\ &= \mathbb{E}[X^2 + 2XY + Y^2] - (\mathbb{E}[X] + \mathbb{E}[Y])^2 \\ &= \mathbb{E}[X^2] + 2\mathbb{E}[X]\mathbb{E}[Y] + \mathbb{E}[Y^2] - \mathbb{E}[X]^2 - 2\mathbb{E}[X]\mathbb{E}[Y] - \mathbb{E}[Y]^2 \\ &= (\mathbb{E}[X^2] - \mathbb{E}[X]^2) + (\mathbb{E}[Y^2] - \mathbb{E}[Y]^2) \\ &= \mathbb{V}(X) + \mathbb{V}(Y) \end{aligned}

例子

Example离散情况（掷骰子）

对于一个公平的六面骰子：

PMF： $p_X(x) = \frac{1}{6}$ ，对于 $x \in \{1, 2, 3, 4, 5, 6\}$

期望值： $\mathbb{E}[X] = \sum_{x=1}^{6} x \cdot \frac{1}{6} = \frac{1+2+3+4+5+6}{6} = \frac{21}{6} = 3.5$

方差： $\mathbb{E}[X^2] = \sum_{x=1}^{6} x^2 \cdot \frac{1}{6} = \frac{1+4+9+16+25+36}{6} = \frac{91}{6}$ $\mathbb{V}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 = \frac{91}{6} - (3.5)^2 = \frac{91}{6} - \frac{49}{4} = \frac{182 - 147}{12} = \frac{35}{12} \approx 2.92$

Example连续情况（正态分布）

对于 $X \sim N(\mu, \sigma^2)$ ：

PDF： $f_X(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

期望值： $\mathbb{E}[X] = \mu$

方差： $\mathbb{V}(X) = \sigma^2$

Example连续情况（均匀分布）

对于 $X \sim U(a, b)$ ：

PDF： $f_X(x) = \frac{1}{b-a}$ ，对于 $a \leq x \leq b$

期望值： $\mathbb{E}[X] = \int_a^b x \cdot \frac{1}{b-a} dx = \frac{a+b}{2}$

方差： $\mathbb{V}(X) = \int_a^b \left(x - \frac{a+b}{2}\right)^2 \cdot \frac{1}{b-a} dx = \frac{(b-a)^2}{12}$

随机变量函数的期望

当我们对随机变量应用函数时，会得到一个新的随机变量。计算这个新随机变量的期望是概率论中的重要问题。

无意识统计学家定律（LOTUS）

计算随机变量函数期望的核心原理是无意识统计学家定律（Law of the Unconscious Statistician, LOTUS）。该定律指出：要计算 $\mathbb{E}[g(X)]$ ，我们不需要先找到 $g(X)$ 的分布，而是可以直接使用 $X$ 的原始分布进行计算。

计算公式

对于函数 $g: \mathbb{R} \to \mathbb{R}$ 和随机变量 $X$ ， $g(X)$ 的期望为：

\mathbb{E}[g(X)] = \begin{cases} \sum_{x} g(x) \cdot p_X(x) & \text{（离散）} \\ \int_{-\infty}^{\infty} g(x) \cdot f_X(x) dx & \text{（连续）} \end{cases}

重要性质

线性性： $\mathbb{E}[a \cdot g(X) + b \cdot h(X)] = a\mathbb{E}[g(X)] + b\mathbb{E}[h(X)]$
单调性：如果对于所有 $x$ 都有 $g(x) \leq h(x)$ ，那么 $\mathbb{E}[g(X)] \leq \mathbb{E}[h(X)]$

应用实例

Example平方函数的期望

对于任意随机变量 $X$ ，计算 $\mathbb{E}[X^2]$ ：

离散情况： $\mathbb{E}[X^2] = \sum_{x} x^2 \cdot p_X(x)$
连续情况： $\mathbb{E}[X^2] = \int_{-\infty}^{\infty} x^2 \cdot f_X(x) dx$

这个结果在计算方差时至关重要： $\mathbb{V}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2$

Example指数函数的期望

对于任意随机变量 $X$ ，计算 $\mathbb{E}[e^{tX}]$ ：

离散情况： $\mathbb{E}[e^{tX}] = \sum_{x} e^{tx} \cdot p_X(x)$
连续情况： $\mathbb{E}[e^{tX}] = \int_{-\infty}^{\infty} e^{tx} \cdot f_X(x) dx$

这就是矩生成函数的定义，在概率论中有广泛应用。

数值估计方法

当函数复杂或分布非标准时，解析解可能难以获得。此时可使用泰勒级数近似进行数值估计。

泰勒级数近似法

对于均值为 $\mu$ 、方差为 $\sigma^2$ 的随机变量 $X$ ，函数 $f(X)$ 的期望和方差可以通过泰勒展开近似。

Proof期望的近似推导

在 $\mu$ 处对 $f(X)$ 进行二阶泰勒展开： $f(X) = f(\mu) + f'(\mu)(X-\mu) + \frac{f''(\mu)}{2}(X-\mu)^2 + R_2$ 其中 $R_2$ 是余项。
对两边取期望： $\mathbb{E}[f(X)] = \mathbb{E}[f(\mu)] + \mathbb{E}[f'(\mu)(X-\mu)] + \mathbb{E}\left[\frac{f''(\mu)}{2}(X-\mu)^2\right] + \mathbb{E}[R_2]$
由于 $f(\mu)$ 、 $f'(\mu)$ 和 $f''(\mu)$ 都是常数： $\mathbb{E}[f(X)] = f(\mu) + f'(\mu)\mathbb{E}[X-\mu] + \frac{f''(\mu)}{2}\mathbb{E}[(X-\mu)^2] + \mathbb{E}[R_2]$
利用 $\mathbb{E}[X-\mu] = 0$ 和 $\mathbb{E}[(X-\mu)^2] = \sigma^2$ ，并忽略高阶余项： $\mathbb{E}[f(X)] \approx f(\mu) + \frac{f''(\mu)}{2}\sigma^2$

Proof方差的近似推导

使用一阶泰勒展开（对于方差计算，一阶通常足够）： $f(X) \approx f(\mu) + f'(\mu)(X-\mu)$
由于 $f(\mu)$ 是常数，它不影响方差： $\mathbb{V}[f(X)] \approx \mathbb{V}[f'(\mu)(X-\mu)]$
常数因子可以提出： $\mathbb{V}[f(X)] \approx [f'(\mu)]^2 \mathbb{V}[X-\mu]$
由于 $\mathbb{V}[X-\mu] = \mathbb{V}[X] = \sigma^2$ ： $\mathbb{V}[f(X)] \approx [f'(\mu)]^2 \sigma^2$

总结公式：

\begin{aligned} \mathbb{E}\left[f(X)\right] &\approx f(\mu) + f''(\mu)\frac{\sigma^2}{2} \\ \mathbb{V}\left[f(X)\right] &\approx \left(f'(\mu)\right)^2\sigma^2 \end{aligned}

近似精度说明

期望的近似使用了二阶展开，精度较高
方差的近似使用了一阶展开，对于非线性较强的函数可能需要更高阶项
当 $f(X)$ 是线性函数时，近似结果是精确的
当 $X$ 的分布越集中（ $\sigma^2$ 越小），近似效果越好

协方差和相关系数

当处理多个随机变量时，我们经常想要衡量它们之间的关系。

协方差

$\text{Cov}(X,Y) = \mathbb{E}[(X - \mu_X)(Y - \mu_Y)] = \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]$

常见分布及其矩

分布	期望值	方差
伯努利(p)	$p$	$p(1-p)$
二项(n,p)	$np$	$np(1-p)$
泊松(λ)	$\lambda$	$\lambda$
均匀(a,b)	$\frac{a+b}{2}$	$\frac{(b-a)^2}{12}$
正态(μ,σ²)	$\mu$	$\sigma^2$
指数(λ)	$\frac{1}{\lambda}$	$\frac{1}{\lambda^2}$

重要定理

Theorem大数定律

对于具有均值 $\mu$ 的独立同分布随机变量 $X_1, X_2, ..., X_n$ ： $\frac{1}{n}\sum_{i=1}^{n} X_i \xrightarrow{P} \mu \text{ 当 } n \to \infty$

Theorem中心极限定理

对于具有均值 $\mu$ 和方差 $\sigma^2$ 的独立同分布随机变量： $\frac{\sum_{i=1}^{n} X_i - n\mu}{\sigma\sqrt{n}} \xrightarrow{D} N(0,1) \text{ 当 } n \to \infty$

多个随机变量的期望

当处理多个随机变量的函数时，我们需要理解如何计算它们的期望。

多变量函数的期望

对于两个随机变量的函数 $g(X,Y)$ ，期望使用联合分布计算：

\mathbb{E}[g(X,Y)] = \begin{cases} \sum_{x}\sum_{y} g(x,y) \cdot p_{X,Y}(x,y) & \text{（离散）} \\ \iint_{\mathbb{R}^2} g(x,y) \cdot f_{X,Y}(x,y) dx dy & \text{（连续）} \end{cases}

关键性质

从这个定义，我们推导出重要性质：

线性性： $\mathbb{E}[X + Y] = \mathbb{E}[X] + \mathbb{E}[Y]$ （总是成立）
乘积： $\mathbb{E}[XY] = \mathbb{E}[X]\mathbb{E}[Y]$ （仅在 $X$ 和 $Y$ 独立时成立）

从联合分布计算期望

连续情况的几何解释

对于联合概率密度函数 $f(x,y)$ ，计算 $\mathbb{E}[X]$ 涉及在整个平面上积分：

$\mathbb{E}[X] = \iint_{\mathbb{R}^2} x \cdot f(x,y) dx dy$

这可以在几何上理解为找到联合密度形成的三维曲面在 $x$ 方向的”质心”。

计算可以通过两种等效方式进行：

直接积分：在整个平面上对 $x \cdot f(x,y)$ 积分
使用边缘密度：首先找到 $f_X(x) = \int_{-\infty}^{\infty} f(x,y) dy$ ，然后计算 $\mathbb{E}[X] = \int_{-\infty}^{\infty} x \cdot f_X(x) dx$

第二种方法有效是因为： $\mathbb{E}[X] = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x \cdot f(x,y) dy dx = \int_{-\infty}^{\infty} x \left(\int_{-\infty}^{\infty} f(x,y) dy\right) dx = \int_{-\infty}^{\infty} x \cdot f_X(x) dx$

与离散情况的联系

类似地，对于离散随机变量： $\mathbb{E}[X] = \sum_{x}\sum_{y} x \cdot p_{X,Y}(x,y) = \sum_{x} x \left(\sum_{y} p_{X,Y}(x,y)\right) = \sum_{x} x \cdot p_X(x)$

这表明无论我们直接使用联合分布还是先计算边缘分布，我们都得到相同的期望。

条件期望

给定 $X = x$ 时 $Y$ 的条件期望为：

\mathbb{E}[Y|X = x] = \begin{cases} \sum_{y} y \cdot p_{Y|X}(y|x) & \text{（离散）} \\ \int_{-\infty}^{\infty} y \cdot f_{Y|X}(y|x) dy & \text{（连续）} \end{cases}

这导出了全期望公式： $\mathbb{E}[Y] = \mathbb{E}[\mathbb{E}[Y|X]]$

期望和方差

期望值（均值）

对于离散随机变量

关键性质的证明

对于连续随机变量

方差

对于离散随机变量

对于连续随机变量

标准差

方差的性质

方差性质的证明

例子

随机变量函数的期望

无意识统计学家定律（LOTUS）

计算公式

重要性质

应用实例

数值估计方法

泰勒级数近似法

近似精度说明

协方差和相关系数

协方差

相关系数

常见分布及其矩

重要定理

多个随机变量的期望

多变量函数的期望

关键性质

从联合分布计算期望

连续情况的几何解释

与离散情况的联系

条件期望

讨论