如何确定Kmeans中的k值

2019年3月21日 232次阅读来源: 聚类算法

KMeans聚类是目前应用比较广泛的无监督聚类方法。
但是存在下面两个问题：
1.初始簇的选择，一般python调用Kmeans包的时候是随机生成初始簇，但是存在一些问题。这个以后再做相信分析。
2.现在遇到的一个问题是：需求方想知道k是怎么确定的，一般k是通过经验给出的，或者对于数据有一个了解，有大致的k值范围。
但是如果数据量巨大，该怎么确定比较好的k值呢？
现在有一个解决办法:Kmeans聚类的效果评估方法是SSE，是计算所有点到相应簇中心的距离均值，当然，k值越大
SSE越小，我们就是要求出随着k值的变化SSE的变化规律，找到SSE减幅最小的k值，这时k应该是相对比较合理的值。

（这是目前的遇到的一点问题，以后还会继续补充）
最近用手中的数据用Kmeans实验了一下，下面是用python实现的过程：
step 1：导入数据
step 2：找到最佳的k
下面是python代码：
inertia=[]
label_pred=[]
meanall=meanall.fillna(0)
centroids=[]
for k in range(1,10):
estimator = KMeans(n_clusters=k)#构造聚类器
estimator.fit(meanall)#聚类
label_pred.append(estimator.labels_) #获取聚类标签
centroids.append(estimator.cluster_centers_) #获取聚类中心
inertia.append(estimator.inertia_ )# 获取聚类准则的总和
《如何确定Kmeans中的k值》
由此确定最佳的k为3，画出k=3时的分类情况，如下图：

    原文作者：聚类算法
    原文地址: https://blog.csdn.net/weixin_39875181/article/details/78601403
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。