K-Means Clustering算法

2019年3月21日 192次阅读来源: 聚类算法

K-Means Clustering算法

k-means聚类接受的参数输入和分级聚类算法一样，接受相同的数据行作为输入，此外它还接受一个调用者期望返回的聚类数（k）作为参数。

k-means聚类算法不同于分级聚类算法，它会预先告诉算法希望生成的聚类数量，然后算法会根据数据的结构状况来确定聚类的大小。

聚类过程

《K-Means Clustering算法》

图1 K-Means聚类算法示意图

在第一步中，随机生成两个聚类中心，分别是两个小黑圈；在第二步中，A和B被分配给上方的聚类中心，C、D、E被分配给下面的聚类中心；第三步中，聚类中心移至聚类所有元素的中心位置；第四步，以新的聚类中心对所有元素重新进行聚类，这时C离上方的聚类中心更近了，被分配给上面的聚类中心；第五步聚类中心再移至所有元素中心位置，这时候在聚类不会发生变化了。

import random
def kcluster(rows, distance=pearson, k=4):
    # 确定每个点的最小值与最大值
    ranges = [(min(row[i] for row in rows), max(row[i] for row in rows)) for i in range(len(rows[0]))]

    # 随机创建k个中心点
    clusters = [[random.random() * (ranges[i][1] - ranges[i][0]) + ranges[i][0] for i in range(len(rows[0]))] for
                j in range(k)]

    lastmatches = None
    for t in range(100):
        # 聚类次数
        print('Iteration %d' % t)
        # 每次的聚类集合都会重新清空
        bestmatches = [[] for i in range(k)]

        # 在每一行寻找距离最近的中心点
        for j in range(len(rows)):
            row = rows[j]
            bestmatche = 0
            for i in range(k):
                d = distance(clusters[i], row)
                if d < distance(clusters[bestmatche], row):
                    bestmatche = i
            bestmatches[bestmatche].append(j)

        # 如果结果与上次迭代相同，整个过程结束
        if bestmatches == lastmatches:
            break
        lastmatches = bestmatches

        # 把中心点移到其所有成员的平均数位置处
        for i in range(k):
            avrgs = [0.0] * len(rows[0])
            if len(bestmatches[i]) > 0:
                for rowid in bestmatches[i]:
                    for m in range(len(rows[rowid])):
                        avrgs[m] += rows[rowid][m]
                for j in range(len(avrgs)):
                    avrgs[j] /= len(bestmatches[i])
                clusters[i] = avrgs
    return bestmatches

与分级聚类相比，该算法产生最终结果所需的迭代次数是非常少的，由于函数选用随机数来生成中心点进行聚类，那么可以想象其实每次聚类所产生的顺序几乎是不同的，根据中心点位置的不同，最终聚类所包含的内容可能也会有所不同。

针对博客数据（数据来源：blogdata.txt在chapter3文件夹中）进行K-Means聚类。

《K-Means Clustering算法》

图2 K-Means聚类结果示意图

kclust中应该包含了代表聚类的ID序列

参考文献

[1].集体编程智慧. Toby Segaran 著，莫映、王开福译

    原文作者：聚类算法
    原文地址: https://blog.csdn.net/sysu_xiamengyou/article/details/68941900
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。