4.7 贝叶斯公式

我们从一个例子开始谈起。

4.7.1 教授还是农民

假如我告诉你,一个人喜欢看书,看文艺电影,性格内向。他是一个大学教授的概率大还是一个农民的概率大?

可能你会不假思索的说这个人更可能是大学教授。

我们下来进行一下计算。中国目前有5亿农民,25万大学教授。

假设有30%的大学教授都性格内向,喜欢看书,看文艺电影。那么符合条件的大学教授为75000人。

假设只有千分之一的农民性能内向,喜欢看书和看文艺电影。那么符合条件的农民为500000人。

基于上边的计算,喜欢看书,看文艺电影,性格内向的人是农民的概率是大学教授的6.7倍。

虽然大学教授群体中爱看书和文艺电影,性格内向的人的概率比农民群体高了300倍。但是一个人是农民的概率是大学教授的2000倍。

所以我们不能只根据观察到证据(喜欢看书,看文艺电影,性格内向)来做出判断。而应该基于先验知识(农民的概率是大学教授的2000倍),根据证据,更新先验知识,得到后验知识(农民的概率是大学教授的6.7倍)。

可以看到因为证据的加入,原来一个人是农民的概率是大学教授概率的2000倍,降低到了6.7倍。但是仍然比大学教授的概率高。

所以我们做判断,不能只基于证据,还要基于原始的先验知识。这就是贝叶斯公式带给我们的启示。

4.7.2 贝叶斯公式的推导

根据上边的例子,我们试着推导一下贝叶斯公式。

因为上边的问题只讨论农民和大学教授,所以我们的样本空间就只有农民和大学教授,不包含其他职业。

样本空间:

SS:中国所有农民和教授

事件:

EE:一个人喜欢看书,看电影,性格内向。

FF:一个人是农民

TT:一个人是大学教授

概率:

一个人是农民的概率:


P(F)=5000050000+25=0.9995P(F)=\frac{50000}{50000+25}=0.9995

一个人是大学教授的概率:
P(T)=2550000+25=0.0005P(T)=\frac{25}{50000+25}=0.0005

在农民和大学教授构成的样本空间里,喜欢看书,看文艺电影,性格内向的概率:
P(E)P(E)

一个农民喜欢看书,看文艺电影,性格内向的概率:
P(EF)=0.001P(E|F) = 0.001

一个大学教授喜欢看书,看文艺电影,性格内向的概率:
P(ET)=0.3P(E|T) = 0.3

常数:

NN:教授+农民的人数

我们需要计算在农民和教授构成的样本空间S里,喜欢看书,看文艺电影,性格内向,的人是教授的概率是多少,那就是计算概率:


P(TE)P(T|E)

上式就等于满足事件E的教授的人数除以样本空间里满足事件E人数: 满足事件E的教授人数为:
N×P(T)P(ET)N \times P(T)P(E|T)

所以:
P(TE)=N×P(T)P(ET)N×P(E)P(T|E)=\frac{N \times P(T)P(E|T)}{N \times P(E)}    (式4-1)

同时约去N后得:
P(TE)=P(T)P(ET)P(E)P(T|E)=\frac{P(T)P(E|T)}{P(E)}    (式4-2)

上式就是著名的贝叶斯公式

其中 P(T)P(T)是先验概率,P(TE)P(T|E)是后验概率。

贝叶斯公式还有下边的一种表示形式,我们继续进行推导。

满足事件E的人数,等于满足事件E的教授人数加上满足事件E的农民人数。所以:


N×P(E)=N×P(T)P(ET)+N×P(F)P(EF)N \times P(E)=N \times P(T)P(E|T) + N \times P(F)P(E|F)

两边同时约去N,得:


P(E)=P(T)P(ET)+P(F)P(EF)P(E)= P(T)P(E|T) +P(F)P(E|F)    (式4-3)

因为{F,T}是一个完备事件组,它们对S进行了一个划分,根据全概率公式也可以推出上式。

将式4-3带入式4-2,有:


P(TE)=P(T)P(ET)P(T)P(ET)+P(F)P(EF)P(T|E)=\frac{P(T)P(E|T)}{P(T)P(E|T) +P(F)P(E|F)}    (式4-4)

这也是贝叶斯公式的一种表示,它是对式4-2分母部分利用全概率公式进行了展开。

results matching ""

    No results matching ""