基于图的聚类算法综述
第三十二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章作为基于图的聚类(Figure-based Clustering)算法的开篇,简要介绍了该类算法的相关内容,并为之后的算法详解做铺垫。
如何稀疏化邻近度图
稀疏化邻近度图,即只保留对象与其最近邻之间的连接,采用这种处理方法有利于处理离群点和噪声,还可以基于稀疏化后的邻近度图上执行专为其开发的聚类算法。因此,这一部分主要是介绍如何进行稀疏化,然后介绍两种专门为稀疏化邻近度图开发的聚类算法:MST和Opossum。
相似性度量的新定义——SNN
SNN是一种基于共享的近邻个数来定义两个对象之间相似度的方法,该方法基于这样一个事实,即对象和他的最近邻通常属于同一个类中,他可以有效的克服高维和变密度簇的问题。因此,这一部分主要介绍SNN是如何定义的,并介绍一种使用这种相似性度量的聚类算法:Jarvis-Patrick。
基于SNN度量的类DBSCAN算
这一部分将会介绍一种与DBSCAN类似的算法,他同样通过定义核心对象并构建环绕他们的簇,由于该算法是一种基于图的聚类算法,因此需要引入近邻度图或稀疏化后的近邻度图的基于密度概念(SNN密度)。
何时应该合并两个簇
两个簇合并的条件是,合并后生成的簇具有类似于这两个簇的特性,这就要求我们使用邻近度图中的信息,提供两个簇是否应该合并的更复杂的评估。因此,这一部分将会讨论一种使用自相似性(Self-similarity)概念确定簇是否应该合并的层次聚类算法:Chameleon。
以下是各种基于图的聚类算法的链接
【1】稀疏化邻近度图、MST聚类、OPOSSUM聚类《稀疏化邻近度图》
【2】共享最近邻相似度、Jarvis-Patrick聚类《共享最近邻相似度》
【3】SNN密度、类DBSCAN算法《基于密度的新概念——SNN密度》
【4】Chameleon聚类《使用自相似性的聚类方法——Chameleon》
【5】谱聚类《基于图切分的K-Means算法——Spectral Clustering》