4.7 贝叶斯公式

我们从一个例子开始谈起。

4.7.1 教授还是农民

假如我告诉你，一个人喜欢看书，看文艺电影，性格内向。他是一个大学教授的概率大还是一个农民的概率大？

可能你会不假思索的说这个人更可能是大学教授。

我们下来进行一下计算。中国目前有5亿农民，25万大学教授。

假设有30%的大学教授都性格内向，喜欢看书，看文艺电影。那么符合条件的大学教授为75000人。

假设只有千分之一的农民性能内向，喜欢看书和看文艺电影。那么符合条件的农民为500000人。

基于上边的计算，喜欢看书，看文艺电影，性格内向的人是农民的概率是大学教授的6.7倍。

虽然大学教授群体中爱看书和文艺电影，性格内向的人的概率比农民群体高了300倍。但是一个人是农民的概率是大学教授的2000倍。

所以我们不能只根据观察到证据（喜欢看书，看文艺电影，性格内向）来做出判断。而应该基于先验知识（农民的概率是大学教授的2000倍），根据证据，更新先验知识，得到后验知识（农民的概率是大学教授的6.7倍）。

可以看到因为证据的加入，原来一个人是农民的概率是大学教授概率的2000倍，降低到了6.7倍。但是仍然比大学教授的概率高。

所以我们做判断，不能只基于证据，还要基于原始的先验知识。这就是贝叶斯公式带给我们的启示。

4.7.2 贝叶斯公式的推导

根据上边的例子，我们试着推导一下贝叶斯公式。

因为上边的问题只讨论农民和大学教授，所以我们的样本空间就只有农民和大学教授，不包含其他职业。

样本空间：

$S$ :中国所有农民和教授

事件：

$E$ :一个人喜欢看书，看电影，性格内向。

$F$ :一个人是农民

$T$ :一个人是大学教授

概率：

一个人是农民的概率：

P(F)=\frac{50000}{50000+25}=0.9995

一个人是大学教授的概率：

P(T)=\frac{25}{50000+25}=0.0005

在农民和大学教授构成的样本空间里，喜欢看书，看文艺电影，性格内向的概率：

P(E)

一个农民喜欢看书，看文艺电影，性格内向的概率：

P(E|F) = 0.001

一个大学教授喜欢看书，看文艺电影，性格内向的概率：

P(E|T) = 0.3

常数:

$N$ :教授+农民的人数

我们需要计算在农民和教授构成的样本空间S里，喜欢看书，看文艺电影，性格内向，的人是教授的概率是多少，那就是计算概率：

P(T|E)

上式就等于满足事件E的教授的人数除以样本空间里满足事件E人数：满足事件E的教授人数为：

N \times P(T)P(E|T)

所以：

P(T|E)=\frac{N \times P(T)P(E|T)}{N \times P(E)}

(式4-1)

同时约去N后得：

P(T|E)=\frac{P(T)P(E|T)}{P(E)}

(式4-2)

上式就是著名的贝叶斯公式。

其中 $P(T)$ 是先验概率， $P(T|E)$ 是后验概率。

贝叶斯公式还有下边的一种表示形式，我们继续进行推导。

满足事件E的人数，等于满足事件E的教授人数加上满足事件E的农民人数。所以：

N \times P(E)=N \times P(T)P(E|T) + N \times P(F)P(E|F)

两边同时约去N，得：

P(E)= P(T)P(E|T) +P(F)P(E|F)

(式4-3)

因为{F,T}是一个完备事件组，它们对S进行了一个划分，根据全概率公式也可以推出上式。

将式4-3带入式4-2，有：

P(T|E)=\frac{P(T)P(E|T)}{P(T)P(E|T) +P(F)P(E|F)}

(式4-4)

这也是贝叶斯公式的一种表示，它是对式4-2分母部分利用全概率公式进行了展开。

贝叶斯公式

4.7 贝叶斯公式

4.7.1 教授还是农民

4.7.2 贝叶斯公式的推导

results matching ""

No results matching ""