随机变量的定义

随机变量让概率论可以用数值方式讨论数据。它把样本空间里的结果映射成数值，使我们能够进一步定义分布、期望、方差和其他统计工具。

Definition随机变量

随机变量是一个变量，其可能值是随机现象的数值结果。随机变量主要有两种类型：离散型和连续型。

离散随机变量：这些是可以取可数个值的随机变量。例如，10次抛硬币中的正面次数就是一个离散随机变量。
连续随机变量：这些是在给定范围内可以取无限个值的随机变量。例如，计算机解决问题所需的时间就是一个连续随机变量。

形式上，随机变量是一个可测函数，将随机过程的结果映射到实数。这种映射使我们能够为不同结果分配概率，并使用现有的数学工具对其进行统计分析。

设 $\Omega$ 为随机过程的样本空间，设 $X: \Omega \to \mathbb{R}$ 为一个随机变量。函数 $X$ 为 $\Omega$ 中的每个结果分配一个实数。随机变量的概率分布描述了概率如何在随机变量的可能值上分布。

概率函数

对于离散随机变量，我们使用概率质量函数（PMF）： $p_X(x) = P(X = x)$

性质：

对所有 $x$ ， $p_X(x) \geq 0$
$\sum_{x} p_X(x) = 1$

对于连续随机变量，我们使用概率密度函数（PDF）： $f_X(x) \text{ 其中 } P(a \leq X \leq b) = \int_a^b f_X(x)dx$

性质：

对所有 $x$ ， $f_X(x) \geq 0$
$\int_{-\infty}^{\infty} f_X(x)dx = 1$

累积分布函数（CDF）

CDF对离散和连续随机变量都有定义： $F_X(x) = P(X \leq x)$

对于离散型： $F_X(x) = \sum_{t \leq x} p_X(t)$

对于连续型： $F_X(x) = \int_{-\infty}^{x} f_X(t)dt$

总之，随机变量是将随机过程的结果（样本空间）映射到实数的函数，使我们能够分析和量化随机现象的行为。

可以通过引入测度和概率空间来给出更严格的定义，您可以在此处选择性地访问：随机变量 - stackexchange。

有关期望和方差计算的更多详细信息，请参见期望和方差。

一些例子

以下是不同情境下随机变量的例子：离散型、连续型和混合型。

离散随机变量

Example掷骰子

考虑掷一个公平的六面骰子的简单例子。样本空间 $\Omega$ 由结果 $\{1, 2, 3, 4, 5, 6\}$ 组成。我们可以定义一个随机变量 $X$ ，将每个结果映射到其值。例如，如果我们掷骰子得到3，那么 $X(\omega) = 3$ 。这个随机变量的概率分布是均匀的，意味着每个结果都有相等的概率 $\frac{1}{6}$ 。

PMF： $p_X(x) = \frac{1}{6}$ ，对于 $x \in \{1, 2, 3, 4, 5, 6\}$

连续随机变量

Example降雨量测量

考虑一个表示城市一个月降雨量的连续随机变量。样本空间 $\Omega$ 可以是所有非负实数的集合，表示以毫米为单位的降雨量。我们可以定义一个随机变量 $Y$ ，将每个结果映射到降雨量。例如，如果我们测量到一个月降雨量为50毫米，那么 $Y(\omega) = 50$ 。这个随机变量的概率分布可以使用正态分布建模，其中均值表示平均降雨量，标准差表示降雨量的变异性。

假设降雨量遵循均值为 $\mu = 100$ 毫米、标准差为 $\sigma = 30$ 毫米的正态分布。PDF为： $f_Y(y) = \frac{1}{30\sqrt{2\pi}} e^{-\frac{(y-100)^2}{2 \cdot 30^2}}$

特定范围的概率：

$P(70 \leq Y \leq 130) = P(\mu-\sigma \leq Y \leq \mu+\sigma) \approx 0.6827$ (68.27%)
$P(40 \leq Y \leq 160) = P(\mu-2\sigma \leq Y \leq \mu+2\sigma) \approx 0.9545$ (95.45%)

CDF： $F_Y(y) = \int_{0}^{y} f_Y(t)dt$ (截断正态分布，因为降雨量 ≥ 0)

混合随机变量

混合随机变量是那些既可以取离散值又可以取连续值的随机变量。例如，考虑一个表示一天内到达商店的顾客数量的随机变量，其中顾客数量可以是任何非负整数（离散），而到达时间可以是任何实数（连续）。

Example顾客到达

考虑一个表示一天内到达商店的顾客数量的随机变量 $Z$ 。样本空间 $\Omega$ 可以是顾客数量的所有非负整数集合和到达时间的所有非负实数集合。我们可以定义一个随机变量 $Z$ ，将每个结果映射到顾客数量及其到达时间。例如，如果5位顾客在一天中的不同时间到达商店，我们可以将其表示为 $Z(\omega) = (5, t_1, t_2, t_3, t_4, t_5)$ ，其中 $t_i$ 表示每个顾客的到达时间。这个随机变量的概率分布可以是顾客数量的离散分布和到达时间的连续分布的组合。

比较：离散型 vs 连续型随机变量

方面	离散随机变量	连续随机变量
值	可数的（有限或无限）	不可数的（区间）
概率函数	PMF: $p_X(x) = P(X = x)$	PDF: $f_X(x)$ 其中 $P(a \leq X \leq b) = \int_a^b f_X(x)dx$
单个点	对于特定的 $x$ ， $P(X = x) > 0$	对于任何特定的 $x$ ， $P(X = x) = 0$
CDF	阶梯函数	连续函数
例子	抛硬币、掷骰子、计数	时间、距离、温度
期望值	$\mathbb{E}[X] = \sum x \cdot p_X(x)$	$\mathbb{E}[X] = \int x \cdot f_X(x)dx$

有关随机变量之间的协方差和相关系数的信息，请参见期望和方差。

联合随机变量

当同时处理多个随机变量时，我们需要理解它们的联合行为和关系。

Definition联合随机变量

联合随机变量描述了定义在相同概率空间上的两个或多个随机变量的行为。对于两个随机变量 $X$ 和 $Y$ ，它们的联合分布指定了 $X$ 取值 $x$ 且 $Y$ 取值 $y$ 同时发生的概率。

联合概率函数

对于离散随机变量，我们使用联合概率质量函数： $p_{X,Y}(x,y) = P(X = x, Y = y)$

性质：

对所有 $x,y$ ， $p_{X,Y}(x,y) \geq 0$
$\sum_{x}\sum_{y} p_{X,Y}(x,y) = 1$

对于连续随机变量，我们使用联合概率密度函数： $f_{X,Y}(x,y) \text{ 其中 } P(a \leq X \leq b, c \leq Y \leq d) = \int_a^b \int_c^d f_{X,Y}(x,y) dy dx$

性质：

对所有 $x,y$ ， $f_{X,Y}(x,y) \geq 0$
$\iint_{\mathbb{R}^2} f_{X,Y}(x,y) dx dy = 1$

边缘分布

一个变量的边缘分布可以从联合分布获得：

对于离散情况：

$p_X(x) = \sum_{y} p_{X,Y}(x,y)$
$p_Y(y) = \sum_{x} p_{X,Y}(x,y)$

对于连续情况：

$f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) dy$
$f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) dx$

独立性

随机变量 $X$ 和 $Y$ 独立，如果： $p_{X,Y}(x,y) = p_X(x) \cdot p_Y(y) \text{（离散）}$ $f_{X,Y}(x,y) = f_X(x) \cdot f_Y(y) \text{（连续）}$

这意味着联合分布可以分解为边缘分布的乘积。

Example两个骰子

考虑掷两个公平的六面骰子。设 $X$ 为第一个骰子的结果， $Y$ 为第二个骰子的结果。

联合PMF： $p_{X,Y}(x,y) = \frac{1}{36}$ ，对于 $x,y \in \{1, 2, 3, 4, 5, 6\}$

边缘PMF：

$p_X(x) = \sum_{y=1}^{6} p_{X,Y}(x,y) = \frac{1}{6}$
$p_Y(y) = \sum_{x=1}^{6} p_{X,Y}(x,y) = \frac{1}{6}$

由于 $p_{X,Y}(x,y) = p_X(x) \cdot p_Y(y)$ ，骰子掷出结果是独立的。

Example身高和体重

考虑成年人的身高 $H$ 和体重 $W$ 之间的关系。这些通常不是独立的。

联合PDF $f_{H,W}(h,w)$ 描述了身高和体重在人群中的联合分布。

边缘密度 $f_H(h) = \int_{0}^{\infty} f_{H,W}(h,w) dw$ 给出了不考虑体重时的身高分布
边缘密度 $f_W(w) = \int_{0}^{\infty} f_{H,W}(h,w) dh$ 给出了不考虑身高时的体重分布

由于身高和体重是相关的， $f_{H,W}(h,w) \neq f_H(h) \cdot f_W(w)$ 。

有关使用联合随机变量计算期望的更多详细信息，请参见期望和方差。