贝叶斯在机器学习中的应用(一)
一:前提知识
具备大学概率论基础知识
熟知概率论相关公式,并知晓其本质含义/或实质意义
二:入门介绍
先验概率:即正向求解概率。 如:四个红球,两个白球,从中任取一个为白球的概率
后验概率:即逆向求解概率。如:红球的次品率为30%,白球的次品率为10%,现在袋子中的白球与红球的数量比是3:1。抽取一个球为次品,问这个次品为红球的概率
这里就用到了贝叶斯公式。其中在使用贝叶斯公式,一般离不开全概率公式
三:与机器学习的联系
分类学习。通常的分类器是有监督的学习,即有由大量样本组成的训练集和每个样本对应的标签(类别信息)。
在大量的数据之下,容易根据样本的特征的概率值来判断该样本属于哪一类。
例如:训练集: 有10000个人,其中人的属性有两个,x1为年龄,x2为身高。标签即分类信息有:小学,中学
训练的过程是: 求类 小学 的情况下 各个年龄和身高出现的概率
求类 中学 的情况下 各个年龄和身高出现的概率
此时训练已经结束
预测过程: 给定一个样本:一个人 年龄已知,身高已知;预测其是小学生还是高中生
那么只需要计算他是小学生的概率大还是高中生的概率大即可
计算方法:在整个训练集中小学生的概率*在小学生的情况下该样本身高值在训练集中的概率*在小学生的情况下该样本年龄值在训练集中的概率
同理计算中学生,再比较两个值的大小
四:详细公式介绍及原理说明见下章