K-Means Clustering算法
k-means聚类接受的参数输入和分级聚类算法一样,接受相同的数据行作为输入,此外它还接受一个调用者期望返回的聚类数(k)作为参数。
k-means聚类算法不同于分级聚类算法,它会预先告诉算法希望生成的聚类数量,然后算法会根据数据的结构状况来确定聚类的大小。
聚类过程
图1 K-Means聚类算法示意图
在第一步中,随机生成两个聚类中心,分别是两个小黑圈;在第二步中,A和B被分配给上方的聚类中心,C、D、E被分配给下面的聚类中心;第三步中,聚类中心移至聚类所有元素的中心位置;第四步,以新的聚类中心对所有元素重新进行聚类,这时C离上方的聚类中心更近了,被分配给上面的聚类中心;第五步聚类中心再移至所有元素中心位置,这时候在聚类不会发生变化了。
import random
def kcluster(rows, distance=pearson, k=4):
# 确定每个点的最小值与最大值
ranges = [(min(row[i] for row in rows), max(row[i] for row in rows)) for i in range(len(rows[0]))]
# 随机创建k个中心点
clusters = [[random.random() * (ranges[i][1] - ranges[i][0]) + ranges[i][0] for i in range(len(rows[0]))] for
j in range(k)]
lastmatches = None
for t in range(100):
# 聚类次数
print('Iteration %d' % t)
# 每次的聚类集合都会重新清空
bestmatches = [[] for i in range(k)]
# 在每一行寻找距离最近的中心点
for j in range(len(rows)):
row = rows[j]
bestmatche = 0
for i in range(k):
d = distance(clusters[i], row)
if d < distance(clusters[bestmatche], row):
bestmatche = i
bestmatches[bestmatche].append(j)
# 如果结果与上次迭代相同,整个过程结束
if bestmatches == lastmatches:
break
lastmatches = bestmatches
# 把中心点移到其所有成员的平均数位置处
for i in range(k):
avrgs = [0.0] * len(rows[0])
if len(bestmatches[i]) > 0:
for rowid in bestmatches[i]:
for m in range(len(rows[rowid])):
avrgs[m] += rows[rowid][m]
for j in range(len(avrgs)):
avrgs[j] /= len(bestmatches[i])
clusters[i] = avrgs
return bestmatches
与分级聚类相比,该算法产生最终结果所需的迭代次数是非常少的,由于函数选用随机数来生成中心点进行聚类,那么可以想象其实每次聚类所产生的顺序几乎是不同的,根据中心点位置的不同,最终聚类所包含的内容可能也会有所不同。
针对博客数据(数据来源:blogdata.txt在chapter3文件夹中)进行K-Means聚类。
图2 K-Means聚类结果示意图
kclust中应该包含了代表聚类的ID序列
参考文献
[1].集体编程智慧. Toby Segaran 著,莫映、王开福译