4.7 贝叶斯公式
我们从一个例子开始谈起。
4.7.1 教授还是农民

假如我告诉你,一个人喜欢看书,看文艺电影,性格内向。他是一个大学教授的概率大还是一个农民的概率大?
可能你会不假思索的说这个人更可能是大学教授。
我们下来进行一下计算。中国目前有5亿农民,25万大学教授。
假设有30%的大学教授都性格内向,喜欢看书,看文艺电影。那么符合条件的大学教授为75000人。
假设只有千分之一的农民性能内向,喜欢看书和看文艺电影。那么符合条件的农民为500000人。
基于上边的计算,喜欢看书,看文艺电影,性格内向的人是农民的概率是大学教授的6.7倍。
虽然大学教授群体中爱看书和文艺电影,性格内向的人的概率比农民群体高了300倍。但是一个人是农民的概率是大学教授的2000倍。
所以我们不能只根据观察到证据(喜欢看书,看文艺电影,性格内向)来做出判断。而应该基于先验知识(农民的概率是大学教授的2000倍),根据证据,更新先验知识,得到后验知识(农民的概率是大学教授的6.7倍)。
可以看到因为证据的加入,原来一个人是农民的概率是大学教授概率的2000倍,降低到了6.7倍。但是仍然比大学教授的概率高。
所以我们做判断,不能只基于证据,还要基于原始的先验知识。这就是贝叶斯公式带给我们的启示。
4.7.2 贝叶斯公式的推导
根据上边的例子,我们试着推导一下贝叶斯公式。
因为上边的问题只讨论农民和大学教授,所以我们的样本空间就只有农民和大学教授,不包含其他职业。
样本空间:
:中国所有农民和教授
事件:
:一个人喜欢看书,看电影,性格内向。
:一个人是农民
:一个人是大学教授
概率:
一个人是农民的概率:
一个人是大学教授的概率:
在农民和大学教授构成的样本空间里,喜欢看书,看文艺电影,性格内向的概率:
一个农民喜欢看书,看文艺电影,性格内向的概率:
一个大学教授喜欢看书,看文艺电影,性格内向的概率:
常数:
:教授+农民的人数
我们需要计算在农民和教授构成的样本空间S里,喜欢看书,看文艺电影,性格内向,的人是教授的概率是多少,那就是计算概率:
上式就等于满足事件E的教授的人数除以样本空间里满足事件E人数: 满足事件E的教授人数为:
所以:
同时约去N后得:
上式就是著名的贝叶斯公式。
其中 是先验概率,是后验概率。
贝叶斯公式还有下边的一种表示形式,我们继续进行推导。
满足事件E的人数,等于满足事件E的教授人数加上满足事件E的农民人数。所以:
两边同时约去N,得:
因为{F,T}是一个完备事件组,它们对S进行了一个划分,根据全概率公式也可以推出上式。
将式4-3带入式4-2,有:
这也是贝叶斯公式的一种表示,它是对式4-2分母部分利用全概率公式进行了展开。