聚类算法——K-means

之前遥感课上老师讲过好多次,还做过题目之类的,都不记得了,学艺不精,再重学一遍,到头来还是有可能要用。

http://www.cnblogs.com/moondark/archive/2012/03/08/2385770.html

https://www.cnblogs.com/moondark/archive/2012/03/08/2385870.html

监督分类是需要学习训练的分类方法,如最大似然分类,人工神经网络分类,即是需要事先为每类地物在遥感图像上采集样本数据,之后通过学习训练过程才来分类;非监督分类不需要人工采集地物样本点数据,多是通过聚类的方法来自动分类,主要有isodata,k均值等.总体来说,监督分类的效果要优于非监督分类.  https://wenda.so.com/q/1370721739067791?src=140

 

首先要来了解的一个概念就是聚类,简单地说就是把相似的东西分到一组,同 Classification (分类)不同,对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做 supervised learning (监督学习),而在聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,因此,一个聚类算法通常只需要知道如何计算相似 度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在 Machine Learning 中被称作 unsupervised learning (无监督学习)。

  我们经常接触到的聚类分析,一般都是数值聚类,一种常见的做法是同时提取 N 种特征,将它们放在一起组成一个 N 维向量,从而得到一个从原始数据集合到 N 维向量空间的映射——你总是需要显式地或者隐式地完成这样一个过程,然后基于某种规则进行分类,在该规则下,同组分类具有最大的相似性。

  假设我们提取到原始数据的集合为(x1, x2, …, xn),并且每个xi为d维的向量,K-means聚类的目的就是,在给定分类组数k(k ≤ n)值的条件下,将原始数据分成k类 
S = {S1, S2, …, Sk},在数值模型上,即对以下表达式求最小值:
《聚类算法——K-means》
这里μi 表示分类S的平均值。

  那么在计算机编程中,其又是如何实现的呢?其算法步骤一般如下:

1、从D中随机取k个元素,作为k个簇的各自的中心。

2、分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇。

3、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。

4、将D中全部元素按照新的中心重新聚类。

5、重复第4步,直到聚类结果不再变化。

6、将结果输出。

  用数学表达式来说,

设我们一共有 N 个数据点需要分为 K 个 cluster ,k-means 要做的就是最小化

《聚类算法——K-means》

这个函数,其中 《聚类算法——K-means》 在数据点 n 被归类到 cluster k 的时候为 1 ,否则为 0 。直接寻找 《聚类算法——K-means》 和 《聚类算法——K-means》 来最小化 《聚类算法——K-means》 并不容易,不过我们可以采取迭代的办法:先固定 《聚类算法——K-means》 ,选择最优的 《聚类算法——K-means》 ,很容易看出,只要将数据点归类到离他最近的那个中心就能保证 《聚类算法——K-means》 最小。下一步则固定 《聚类算法——K-means》,再求最优的 《聚类算法——K-means》。将 《聚类算法——K-means》 对 《聚类算法——K-means》 求导并令导数等于零,很容易得到 《聚类算法——K-means》 最小的时候 《聚类算法——K-means》 应该满足:

《聚类算法——K-means》

 

    原文作者:聚类算法
    原文地址: https://blog.csdn.net/u014717398/article/details/86584107
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞