密度聚类
密度聚类假设聚类结构能通过样本分布的紧密程度确定,通常情况下密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类 簇以获得最终的聚类结果
DBSCAN
- 基于一组邻域参数来刻画样本分布的紧密程度。
- 事先不用预设聚类簇数
https://blog.csdn.net/xiaokang123456kao/article/details/74978572
层次聚类
在不同层次对数据进行划分,从而形成树形聚类结构
- 自底向上
- 自顶向下
AGNES
- 一种采用自底向上聚合策略的层次聚类算法。先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中国找出距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数。
- 计算聚类簇间的距离,可以看作计算集合间的距离,采用豪斯多夫距离
- 需要预先设置聚类簇数
参考下面博客
https://blog.csdn.net/qq_39388410/article/details/78240037
https://blog.csdn.net/u012500237/article/details/65437525
聚类算法的应用:
- 聚类集成:通过对多个聚类学习器进行集成,有效降低聚类假设与真实结构不符,聚类过程中的随机性等因素带来的不利影响。
- 异常检测:借助聚类或距离计算进行,如将远离所有簇中心的样本作为异常点,或将密度极低处的样本作为异常点。