【Machine Learning】从零开始，了解无监督学习的方法

2019年5月11日 224次阅读来源: Jason_Yuan

目录###

1. 什么是无监督学习
 2. 发现和无监督学习
 3. 聚类分析

1. 什么是无监督学习

无监督学习没有教师，需要学习器自身形成(form)和评价(evaluate)概念。

科学是人类中无监督学习最好的例子，因为科学家没有教师的指点，他们提出假设来解释现象，并设计实验来验证假设。

hypothesis -> generality -> conclusion

2. 发现和无监督学习(Discovery and unsupervised learning)

2.1 Automated Mathematician(AM)

AM是最早的和最成功的发现程序之一
AM获取了许多有趣的数学概念，比如：集合论的概念。通过搜索这个数学概念空间，AM发现自然数和几个重要的数论的概念，比如质数的存在性。
AM并不具备学习能力

2.2 BACON

BACON发展了量化科学定律的形式的计算模型
用与行星和太阳间的距离以及行星的旋转周期相关的数据，BACON“重发现”行星运动的开普勒定律。

2.3 SCAVENGER

用ID3算法的一个变种来改进它形成类比的能力。

3. 聚类分析(Clustering analysis)

3.1 什么是聚类分析

Cluster analysis or clustering is the task of grouping a set of objects in such a way that objects in the same group (called a cluster) are more similar (in some sense or another) to each other than to those in other groups (clusters).
-from wikipedia

聚类是一种无监督学习
聚类唯一需要的信息就是样品之间的相似性(similarity between examples)。
一个好的聚类要满足：
- High intra-cluster similarity
- Low inner-cluster similarity
  聚类
  注：computationally difficult problem (NP-hard)

3.2 相似性(similarity)的定义

《【Machine Learning】从零开始，了解无监督学习的方法》相似性通常很难去定义

相似性衡量标准的选择，对于聚类(clustering)十分重要。
与相似性相对应的就是差异性(dissimilarity或者说distance)。
Proximity通常指的相似性(similarity)或者差异性(dissimilarity)
现有的一些对于distance的衡量方法：
- 欧几里得距离(Euclidean distance)
- 明氏距离(Minkowski distance)
  Minkowski distance is a generalization of Euclidean distance
- 曼哈顿距离(Manhattan distance/City Block distance)
- Kernelized (non-linear) distance

3.3 聚类在生活中的应用

类别对于人类如何分析和描述世界起了至关重要的作用，人类其实非常擅长做分类，一个小孩子就可以将熟悉的事物分为建筑、机动车、动物、植物…….

生物学(Biology)
生物学家花费多年时间为所有的生物创建了一套生物学分类法(等级结构分类)：界(kingdom), 门(phylum), 纲(class), 目(order), 科(family), 属(genus), 和种(species)。
信息检索(Information Retrieval)
万维网包含了数十亿网页，搜索引擎可以将搜索结果进行分类，分成不同的clusters。每个cluster可能代表搜索的一个方面。比如当你搜索“电影”，搜索结果可能被分为“电影预告片”“电影导演”“电影院”……当然也可能会继续向下层级的分类，完善用户体验。
气候(Climate)
理解地球气候需要在大气和海洋中寻求模式，聚类分析已经被应用于相应的模式寻找过程，例如海洋对陆地气候的显著影响。
心理学和医学(Psychology and Medicine)
疾病会频繁的出现一系列新的变种，聚类分析可以用来鉴定和识别这些新的不同的子类。
商业(Business)
聚类分析被用来发现不同的客户群，并且通过购买模式刻画不同的客户群的特征。