K-means算法优缺点及改进

2023年12月17日 925次阅读来源: 聚类算法

K-means算法优点：

（1）、是解决聚类问题的一种经典算法，简单、快速（2）、对处理大数据集，该算法保持可伸缩性和高效性（3）、当簇接近高斯分布时，它的效果较好。

K-means算法缺点：

(1)、在簇的平均值可被定义的情况下才能使用，可能不适用于某些应用；
(2)、在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适；
(3)、在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果；
(4)、该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的；
(5)、若簇中含有异常点，将导致均值偏离严重（即:对噪声和孤立点数据敏感）；

(6)、不适用于发现非凸形状的簇或者大小差别很大的簇。

K-means算法缺点的改进：

1、很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。通过类的自动合并和分裂，得到较为合理的类型数目 K，例如 ISODATA 算法。

2、针对上述(3)，可选用二分K-均值聚类；或者多设置一些不同的初值，对比最后的运算结果，一直到结果趋于稳定结束。

3、针对上述第(5)点，改成求点的中位数，这种聚类方式即K-Mediods聚类（K中值）

    原文作者：聚类算法
    原文地址: https://blog.csdn.net/u011204487/article/details/59624571
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。