初识分级聚类算法

2019年3月21日 202次阅读来源: 聚类算法

首先介绍一下聚类算法。先来一段维基百科上扒下来的介绍：聚类分析（英语：Cluster analysis，亦称为群集分析）是对于统计数据分析的一门技术，在许多领域受到广泛应用，包括机器学习，数据挖掘，模式识别，图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（subset），这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。

接着介绍今天需要讲述的聚类算法：分级聚类算法。接着再来一段摘抄，这段来自集体智慧编程。分级聚类通过连续不断的将最为相似的群组两两合并，来构造出一个群组的层级结构。其中的每个群组都是从一个简单元素开始的。在每次迭代的过程中，分级聚类算法会计算每两个群组间的距离，并将最近的两个群组合并成一个新的群组。这个过程一直重复下去，知道只剩下一个群组为止。

接下来，以一维数据的形式讲述这个算法。以2、5、6、7、8、23为例子。如图下图所示：

《初识分级聚类算法》