聚类算法——近邻聚类算法

2019年3月21日 130次阅读来源: 聚类算法

每篇一句：

Time is always too short for those who need it, but for those who love, it lasts forever. —Dracula Untold

近邻聚类法：

近邻聚类法同样是一种基于距离阈值的聚类算法。

问题：
有N个待分类的模式{X1,X2,…,Xn}，要求按距离阈值T分类到以Z1,Z2,…为聚类中心的模式类中。（T_threshold）
算法描述：
1. 任取样本Xi作为第一个聚类中心的初始值，如令Z1 = X1。
2. 计算样本X2到Z1的欧式距离D21= ||X2 – Z1||，若D21>T，定义一新的聚类中心Z2 = X2；否则X2 ∈以Z1为中心的聚类。
3. 假设已有聚类中心Z1,Z2，计算D31=||X3 – Z1||和D32=||X3 – Z2||，若D31>T且D32>T，则建立第三个聚类中心Z3 = X3；否则X3∈离Z1和Z2中最近着（最近邻的聚类中心）。
4. ……以此类推，直到将所有的N个样本都进行分类。
算法特点：
1. 局限性：很大程度上依赖于第一个聚类中心的位置选择、待分类模式样本的排列次序、距离阈值T的大小以及样本分布的几何性质等。
2. 优点：计算简单。（一种虽粗糙但快速的方法）
算法讨论：
用先验知识指导阈值T和起始点Z1的选择，可获得合理的聚类结果。否则只能选择不同的初值重复试探，并对聚类结果进行验算，根据一定的评价标准，得出合理的聚类结果。

Python实现：

解释说明见代码中注释。

# coding=utf-8

# 近邻聚类算法的Python实现
# 数据集形式data=[[],[],...,[]]
# 聚类结果形式result=[[[],[],...],[[],[],...],...]
# 其中[]为一个模式样本，[[],[],...]为一个聚类

from Max_Min_Cluster import get_distance, classify


def knn_cluster(data, t):

    # data：数据集，t：距离阈值
    # 算法描述中的介绍的是在寻找聚类中心的同时进行聚类，本次实现中并未采取这种方式，
    # 原因是同时进行的话要既要考虑聚类中心，又要考虑某个类，实现较为麻烦，
    # 此次采取与上次最大最小距离算法相同的方式，先寻找聚类中心，再根据最近邻原则分类，
    # 两种方式实现效果是相同的，同时又可以直接利用最大最小距离聚类算法中写好的classify()分类方法

    zs = [data[0]]  # 聚类中心集，选取第一个模式样本作为第一个聚类中心Z1
    # 计算聚类中心
    get_clusters(data, zs, t)
    # 分类
    result = classify(data, zs, t)
    return result


def get_clusters(data, zs, t):
    for aData in data:
        min_distance = get_distance(aData, zs[0])
        for i in range(0, len(zs)):
            distance = get_distance(aData, zs[i])
            if distance < min_distance:
                min_distance = distance
        if min_distance > t:
            zs.append(aData)


# data = [[0, 0], [3, 8], [1, 1], [2, 2], [5, 3], [4, 8], [6, 3], [5, 4], [6, 4], [7, 5]]
# t = 4.5
# result = knn_cluster(data, t)
# for i in range(len(result)):
# print "----------第" + str(i+1) + "个聚类----------"
# print result[i]

# 打印结果：
# ----------第1个聚类----------
# [[0, 0], [1, 1], [2, 2]]
# ----------第2个聚类----------
# [[3, 8], [4, 8]]
# ----------第3个聚类----------
# [[5, 3], [6, 3], [5, 4], [6, 4], [7, 5]]

注：算法描述中的介绍的是在寻找聚类中心的同时进行聚类，本次实现中并未采取这种方式，原因是若同时进行的话要既要考虑聚类中心集合的表现形式，又要考虑某个聚类的表现形式，总体来说，数据表示形式较为麻烦。此次实现采取与上次最大最小距离聚类算法相同的方式：先寻找聚类中心，再根据最近邻原则分类，两种方式实现效果是相同的，同时又可以直接利用最大最小距离聚类算法中写好的classify()分类方法。

最后：

本文简单的介绍了 聚类算法 —— 近邻聚类算法 的相关内容，以及相应的代码实现，如果有错误的或者可以改进的地方，欢迎大家指出。

代码地址：聚类算法——近邻聚类算法（码云）

    原文作者：聚类算法
    原文地址: https://blog.csdn.net/Ha_hha/article/details/79128777
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。