最近在学习Hadoop 之家Mahout ,看了一些博客觉得挺不错的,记录下来以备学习也和大家分享.
1. 聚类算法kmeans
聚类分析是数据挖掘及机器学习领域内的重点问题之一,在数据挖掘、模式识别、决策支持、机器学习及图像分割等领域有广泛的应用,是最重要的数据分析方法之一。聚类是在给定的数据集合中寻找同类的数据子集合,每一个子集合形成一个类簇,同类簇中的数据具有更大的相似性。聚类算法大体上可分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法。
k-means algorithm算法是一种得到最广泛使用的基于划分的聚类算法,把n个对象分为k个簇,以使簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。
算法首先随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇,然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。
公式和描述很不错的博客:
http://blog.csdn.net/itplus/article/details/10088429
结合上面的博客 再看看 以下案例相信你肯定有收获的:
http://blog.fens.me/hadoop-mahout-maven-eclipse/
以下myeclipse 下的代码
http://download.csdn.net/detail/u010011737/9441453