聚类算法的几个注意点


        聚类算法是一种非监督学习算法,其基本步骤主要分为两步:第一步,根据当前聚类中心对所有样例重新分类;第二步,根据第一步分类的结果重新计算新的聚类中心。思想还是很容易理解的,下面简单说说应用时的几个注意点。


1. 如何初始化聚类中心


       一般,随机从训练样例中随机选取K个样例作为聚类中心。但是当K值很小(2~10)时,很容易陷入局部最优。常见做法是:循环多次(50~1000)进行聚类,从中选择使得目标函数最小的聚类中心。


2. 如何确定聚类的个数


       对于如何选择合适的分类数目,可采用“胳膊肘”法(‘elbow’ method)。所谓的elbow method 其实就是绘制出代价函数与聚类数目K的函数图像,发现图像上有个拐点(形如胳膊肘,因此得名),那么选择拐点所对应的的K值即可。如下图所示:

《聚类算法的几个注意点》

(图片来源:吴恩达《机器学习》)

        当然,此方法不一定适用于所有应用。如果绘制的图像如右图所示,那么自己看着办吧(结合业务或许可以有个不错的选择)!

    原文作者:聚类算法
    原文地址: https://blog.csdn.net/jingyi130705008/article/details/78919750
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞