cluster-analysis – 簇间和簇内距离

我已经找到了以下关于群集间和群集内距离的公式,我不确定我是否理解它们是如何工作的.

群集间距离

上面的公式中不应该有平方根吗?

群集间和群集内:

为什么j指数从N 1开始?而不是从1到N2?

哪一个是正确的?或者有任何等价物吗?或者我应该寻找质心之间的距离?看起来很简单.群集内距离怎么样?

我发现维基百科公式http://en.wikipedia.org/wiki/Cluster_analysis#Internal_evaluation更难理解.

我需要计算这个距离以便正确分组颜色以创建减少的调色板,所以我认为这些距离越精确,灌浆越准确(公式代替簇间距离之间的距离) ).矢量是三维的(RGB分量).

最佳答案 很多算法并没有真正使用“距离”.

k-means例如最小化方差,即你在这里看到的平方和.现在平方和是欧几里德距离的平方,所以可以说这个算法也试图最小化欧几里德距离;但算法的“自然”公式不使用欧几里德距离,而是使用平方和.如果我没有弄错的话,同样也适用于Ward聚类,你应该使用方差计算它,而不是欧几里德距离.

请注意,如果您最小化z ^ 2,并且z不能为负,那么您还最小​​化了z.

另见:https://stats.stackexchange.com/questions/95793/is-there-an-advantage-to-squaring-dissimilarities-when-using-ward-clustering

点赞