【超几何分布的期望和方差】在概率论与数理统计中,超几何分布是一种描述在不放回抽样情况下成功次数的概率分布。它广泛应用于质量控制、生物统计、市场调研等领域。理解超几何分布的期望和方差对于掌握其性质以及实际应用具有重要意义。
一、什么是超几何分布?
超几何分布用于描述在一个有限总体中进行不放回抽样的情况下,抽取样本中某一类元素出现的次数。设总体中有 $ N $ 个个体,其中 $ K $ 个是“成功”个体,其余 $ N - K $ 个为“失败”个体。从总体中随机抽取 $ n $ 个个体,且不放回地进行,那么成功次数 $ X $ 的分布即为超几何分布。
记作:
$$
X \sim \text{Hypergeometric}(N, K, n)
$$
其概率质量函数为:
$$
P(X = k) = \frac{\binom{K}{k} \binom{N - K}{n - k}}{\binom{N}{n}}
$$
其中 $ k = \max(0, n - (N - K)), \ldots, \min(n, K) $。
二、超几何分布的期望
期望是衡量随机变量平均取值的重要指标。对于超几何分布而言,其期望可以表示为:
$$
E(X) = n \cdot \frac{K}{N}
$$
这个公式直观地反映了在不放回抽样中,每个样本被选中的概率为 $ \frac{K}{N} $,而总共有 $ n $ 次抽样,因此期望值就是 $ n $ 乘以单次成功的概率。
例如,如果一个班级有 50 名学生,其中 20 名是女生,从中随机抽取 10 名学生,那么女生人数的期望为:
$$
E(X) = 10 \times \frac{20}{50} = 4
$$
三、超几何分布的方差
方差用于衡量随机变量与其期望之间的偏离程度。对于超几何分布,其方差公式为:
$$
\text{Var}(X) = n \cdot \frac{K}{N} \cdot \left(1 - \frac{K}{N}\right) \cdot \frac{N - n}{N - 1}
$$
该公式包含了三个主要部分:
1. $ n \cdot \frac{K}{N} \cdot \left(1 - \frac{K}{N}\right) $:这是类似于二项分布的方差形式;
2. $ \frac{N - n}{N - 1} $:称为“有限总体校正因子”,用于调整不放回抽样带来的相关性影响。
这个校正因子使得超几何分布的方差小于对应的二项分布(当 $ n $ 相对较小,或 $ N $ 很大时,该因子接近 1)。
例如,在上述班级例子中,女生人数的方差为:
$$
\text{Var}(X) = 10 \cdot \frac{20}{50} \cdot \left(1 - \frac{20}{50}\right) \cdot \frac{50 - 10}{50 - 1} = 10 \cdot 0.4 \cdot 0.6 \cdot \frac{40}{49} \approx 1.959
$$
四、与二项分布的区别
虽然超几何分布与二项分布都用于描述成功次数,但它们之间存在关键区别:
- 二项分布假设每次抽样是独立的(即放回抽样),其方差为 $ np(1-p) $;
- 超几何分布则是不放回抽样,因此样本之间存在相关性,导致方差更小。
五、总结
超几何分布作为描述有限总体中不放回抽样行为的重要工具,其期望和方差在实际问题中具有广泛的用途。通过理解其数学表达式及其背后的意义,可以帮助我们在面对类似情境时做出更加准确的统计推断与决策。
无论是科研分析还是工程应用,掌握超几何分布的期望和方差都是提升数据分析能力的重要一步。