朴素贝叶斯分类sparkmllib测试

2019年11月4日 287次阅读

贝叶斯分类的基础——贝叶斯定理

每次提到贝叶斯定理，我心中的崇敬之情都油然而生，倒不是因为这个定理多高深，而是因为它特别有用。这个定理解决了现实生活里经常遇到的问题：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率：

P(A|B) 表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为：P(A|B)=P(AB)/P(B)

下面不加证明地直接给出贝叶斯定理：P(B|A)=P(A|B)P(B)/P(A)

朴素贝叶斯分类

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

朴素贝叶斯分类的正式定义如下：

1、设x={a1,a2,a3…am}为一个待分类项，而每个a为x的一个特征属性。

2、有类别集合C={y1,y2y3…yn}。

3、计算p(y1|x),p(y2|x)…p(yn|x)。

4、如果p(yk|x)=max{p(y1|x),p(y2|x)……p(yn|x)}，则。x->yk

《朴素贝叶斯分类sparkmllib测试》

可以看到，整个朴素贝叶斯分类分为三个阶段：

第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

Spark mllib测试

样本数据

0,0 0 0 0

0,0 0 0 1

1,2 2 1 0

0,2 2 1 1

1,1 2 1 1

0,0 1 0 0

1,0 2 1 0

val conf = new SparkConf().setAppName(“test_Bayes1”).setMaster(“local”)
val sc =new SparkContext(conf)

//读入数据(数据是在hdfs上面)
val data = sc.textFile(“/user/hdfs/test/bayes.txt”)

val parsedData =data.map { line =>
val parts=line.split(‘,’)
LabeledPoint(parts(0).toDouble,Vectors.dense(parts(1).split(‘ ‘).map(_.toDouble)))
}
// 把数据的60%作为训练集，40%作为测试集.
val splits = parsedData.randomSplit(Array(0.6,0.4),seed = 11L)
val training =splits(0)
val test =splits(1)

//获得训练模型,第一个参数为数据，第二个参数为平滑参数，默认为1，可改
val model =NaiveBayes.train(training,lambda= 1.0)

//对模型进行准确度分析
val predictionAndLabel= test.map(p =>(model.predict(p.features),p.label))
val accuracy =1.0 *predictionAndLabel.filter(x => x._1 ==x._2).count() / test.count()

println(“accuracy–>”+accuracy)
println(“Predictionof(0.0, 2.0, 0.0, 1.0):”+model.predict(Vectors.dense(0.0,1.0,1.0,1.0)))