1, 全概率公式:
2, 贝叶斯公式:
3,朴素贝叶斯分类器:
定义:
- 1,设 x= {a1, a2, a3…, am } 为一个待分类项,而每个a为x的一个特征属性。
- 2,有类别集合:C ={ y1, y2, y3 …, yn }
- 3,计算一个概率集合U : P(y1|x), P(y2|x), P(y3|x)…P(yn|x)
- 4,x最可能的类别 <==> 集合U中,概率的取最大值时,是类别集合C中的哪个?
朴素贝叶斯分类器是一个概率分类器。假设现有的类别C={c1,c2,……cm}。给定一篇文档d,文档d最有可能属于哪个类呢?这个问题用数学公式表示如下:
由于每个概率值很小(比如0.0001)若干个很小的概率值直接相乘,
得到的结果会越来越小。为了避免计算过程出现下溢(underflower),
引入对数函数Log, 最终得到: