层次聚类法 hierarchical clustering approach

层次聚类方法

给出N个数据的数据集和一个N×N的距离矩阵,层次聚

类的基本算法如下:

步骤1将每个数据点作为一个簇,簇间的距离(相似)等于相应数据点的距离。

步骤2找到最相近(最相似)的两个簇,然后把它们合并。步骤3计算新产生的簇和原来每个簇之间的距离。步骤4重复步骤2和步骤3,直到所有的数据都聚到一个簇中。

可以看到,步骤3可以用不同的方法来实现,这些方法可以是单连接法、全连接法和平均连接法。

(1)单连接法:单连接法也就是最短距离法。两个类之间的距离用从两个类中抽取的每对样本的最小距离表示。作为距离度量,一旦最近的两个类的距离超过某个任意给定的阈值,算法就自动结束。

(2)全连接法:全连接法又称为最长距离法。全连接与单连接聚类方式相同,只是类与类之间的距离定义不是选取最小距离,而是找两类数据对象之间距离最大者。

(3)平均连接法:平均连接法的距离度量是选取两类数据对象之间平均距离。

点赞