如何确定Kmeans中的k值

KMeans聚类是目前应用比较广泛的无监督聚类方法。
但是存在下面两个问题:
1.初始簇的选择,一般python调用Kmeans包的时候是随机生成初始簇,但是存在一些问题。这个以后再做相信分析。
2.现在遇到的一个问题是:需求方想知道k是怎么确定的,一般k是通过经验给出的,或者对于数据有一个了解,有大致的k值范围。
但是如果数据量巨大,该怎么确定比较好的k值呢?
现在有一个解决办法:Kmeans聚类的效果评估方法是SSE,是计算所有点到相应簇中心的距离均值,当然,k值越大
SSE越小,我们就是要求出随着k值的变化SSE的变化规律,找到SSE减幅最小的k值,这时k应该是相对比较合理的值。

(这是目前的遇到的一点问题,以后还会继续补充)
最近用手中的数据用Kmeans实验了一下,下面是用python实现的过程:
step 1:导入数据
step 2:找到最佳的k
下面是python代码:
inertia=[]
label_pred=[]
meanall=meanall.fillna(0)
centroids=[]
for k in range(1,10):
estimator = KMeans(n_clusters=k)#构造聚类器
estimator.fit(meanall)#聚类
label_pred.append(estimator.labels_) #获取聚类标签
centroids.append(estimator.cluster_centers_) #获取聚类中心
inertia.append(estimator.inertia_ )# 获取聚类准则的总和
《如何确定Kmeans中的k值》
由此确定最佳的k为3,画出k=3时的分类情况,如下图:
《如何确定Kmeans中的k值》

    原文作者:聚类算法
    原文地址: https://blog.csdn.net/weixin_39875181/article/details/78601403
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞