4.4 数学期望与方差

假设你设计一个火星车，有一项任务是调查火星上石头的大小。如果火星车每采集一个石头样本，就把石头大小的数据发送回地球，那通讯代价太大了。可以让火星车在火星上采集足够多的石头，然后把石头大小的均值发回地球。这样不错，但是还有个问题就是我们不知道火星上的石头都是一样大小还是大小差异很大。描述样本之间差异性大小的指标是方差。我们可以把采集石头大小的方差也发送回地球。这样，就可以通过只发送两个数，一个均值，一个方差来描述火星石头的大小了。

4.4.1 概率和统计的区别

概率是以“已知分布”为前提的学科。它关注的是随机变量的分布特性，并通过数学模型来描述这些特性。根据随机变量的分布特性，推导未知事件的结果。比如已知一个硬币正反面概率各为0.5。那你投掷一次硬币得到正面的概率为多少？

统计是以有限样本为前提的学科。它关注的是通过样本推断总体的特性。比如你抛了10000次硬币，其中6000次为正面，4000次为反面。你推断抛一次硬币得到正面的概率为多少。

简单总结如下：

概率：已知总体分布 ⇒ 推断随机变量的特性。
统计：已知样本数据 ⇒ 推断总体分布的特性。

4.4.2 数学期望和均值

数学期望

数学期望，简称期望，是概率论研究的内容，已经知道了概率分布，研究随机变量可能取值的加权平均数。它反映了随机变量分布的中心趋势，是对随机现象结果的“平均值”的一种数学描述。

对于离散型随机变量X，其数学期望定义为：

E(X)=\sum_{i}^{} x_iP(X=x_i)

其中：

$x_i$ ：随机变量X的可能取值。
$P(X=x_i)$ : 对应取值 $x_i$ 的概率。

对于连续型随机变量X，其数学期望定义为：

E(X) = \int_{-\infty}^{\infty} xf(x)dx

其中：

$f(x)$ : 随机变量X的概率密度函数。

均值

均值，是统计学研究的内容，它计算一组样本的均值，计算的公式为：

\bar { x } = \frac{1}{n} \sum_{i=1}^n x_i

4.4.3 方差与样本方差

方差

方差是用来衡量随机变量取值偏离其期望程度的重要指标。在概率论里它表示随机变量与其期望值之间的平方差的平均值，可以看作是随机变量“波动”的大小。

方差通常用 $Var(X)$ 或 $\sigma ^2$ 表示，其数学表达式为：

Var(X)=E[(X-E[X])^2]]

其中：

X是随机变量。
$E[x]$ 是随机变量X的数学期望。
$E[(X-E[X])^2]]$ 是X偏离期望的平方的期望。

投掷一个标准的骰子，随机变量X表示点数。可能的取值为{1,2,3,4,5,6}，每个注的概率 $p=\frac{1}{6}$ 。

期望： $E[x] = \sum_{i=1}^{6}\frac{1}{6}\times i = 3.5$
方差： $Var(X) = \sum_{i=1}^{6}\frac{1}{6}\times (i-3.5)^2 = 2.9167$

总体方差和样本方差

总体方差 总体方差和样本方差是统计学中衡量数据分布离散程度的重要概念。

如果你采集了一个分布的所有样本。那么你可以计算总体方差。总体方差描述整个总体中数据的分布离散程度。它反映总体中每个数据点与总体均值的偏差平方的平均值。

设总体中的数据点为 $x_1,x_2,...,x_N$ ,总体均值为 $\mu$ ，总台方差 $\sigma ^2$ 定义为：

\sigma ^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2

样本方差

当我们进行一项统计实验，无法获取所有样本时，只是对一些样本采样进行统计。比如你要对一批灯泡做预期寿命测试，你只能抽样进行测试寿命，不可能对所有灯泡进行寿命测试。这时候你只能计算样本方差，它的公式和总体方差不同。

设总体中的数据点为 $x_1,x_2,...,x_n$ ,总体均值为 $\bar x$ ，总台方差 $s ^2$ 定义为：

s ^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar x)^2

你可能奇怪，为什么样本方差除的是n-1,而不是n。

因为样本方差只采集了部分样本，不是整体样本，利用部分样本来评估总体方差，如果除以n是会产生偏差的，需要通过除以n-1来对偏差进行纠正。

首先，如果采样的样本数为1，采样值为x，那么均值还是x, 如果除以n=1的话，那么方差为0。因为分子部分x和均值相等。这显然是不合理的。用一个数来评估均值是有偏的。如果公式定义分母不分为n-1，那么采样数为1计算样本方差就无效，这样更合理。

那么如果采样的样本数为2个，采样值分别 $x_1,x_2$ ，计算出他们的均值 $\bar{x}$ ，实际上如果 $x_1,\bar{x}$ 确定后， $x_2$ 也就被确定了，失去了随机性。所以这是分母为n-1更合理。

还有一种解释方式，那就是通过采样样本计算均值，然后用样本值减去这个均值得到的值，总是小于样本值减去整体分布的均值。

下边看个例子，比如从1到10,10个数。这是整体样本，它的真实均值为5.5。

我们随机采样2个数，除非这两个数距离均值5.5相等，比如5和6。显然两个数距离均值不相等的情况更多，比如2和6。以随机采样2和6为例，它们两个计算的样本均值为4。那么它们两个和样本均值的差值都为2。平方和为8。但是它们两个与整体样本均值5差值的平方和为10。可以看到样本均值会导致方差计算的分子部分偏小，所以需要让分母部分也通过减一来调整偏差。

数学期望和方差