Canopy聚类算法说明

2023年10月8日 324次阅读来源: 聚类算法

Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值 T1>T2来处理。基本的算法是，从一个点集合开始并且随机删除一个，创建一个包含这个店的Canopy，并在剩余的点集合上迭代。对于每个点，如果它的距离第一个点的距离小于T1，然后这个点就加入这个聚集中。除此之外，如果这个距离<T2，然后将这个点从这个集合中删除。这样非常靠近原点的点将避免所有的未来处理。这个算法循环到初始集合为空为止，聚集一个集合的Canopies，每个可以包含一个或者多个点。每个点可以包含在多于一个的Canopy中。

Canopy聚类经常被用作更加严格的聚类技术的初始步骤，像是K均值聚类。通过一个初始聚类，可以将更加耗费的距离度量的数量通过忽略初始canopies的点显著减少。

    原文作者：聚类算法
    原文地址: https://blog.csdn.net/airinsoul/article/details/6659647
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。