GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性

2019年5月11日 180次阅读来源: hzyido

机器之心 | GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性
视频地址：网易直播:直击机器智能峰会：看AI的过去现在与未来 http://live.163.com/room/134513.html

微软人工智能首席科学家邓力将分享《无监督学习的最新进展（Recent Advances in Unsupervised Learning）》。他认为，聚类方法、GAN 和变分自编码器（VAE）等传统无监督学习方法关注的重点是对输入数据的结构建模，而邓力则将探讨一种通过探索输出结构来进行无监督学习的方法以及为这种学习技术的新型成本函数问题所提出的新技术——随机原始-对偶梯度（SPDG：stochastic primal-dual gradient）。

有关研究的论文《一种利用序列输出统计的无监督学习方法（An Unsupervised Learning Method Exploiting Sequential Output Statistics）》已经在 arXiv 上发布：http://arxiv.org/abs/1702.07817，来听演讲之前，不妨先读读论文吧。

邓力今天跟大家介绍的一个主流的观点就是，以预测为中心的无监督的学习的范式，在这个范式里面我们能够直接完成机器学习的目标，无论是预测还是其他的任务。因为，我们能够直接把输入放到系统里面，然后利用无监督学习的机制（机器自己学习），而不需要人类给它一些标签、标识，利用这种范式就能做出一些非常优良的预测。

随后邓力为我们描绘了监督学习如何使用分类器处理标注问题。我们知道监督学习的特点就是有大量的标注数据集，而最新的监督模型总是表现得比无监督预训练模型更好。那是因为，监督会允许模型能够更好的编码数据集上的特征。只不过当模型应用在其他的数据集上时，监督会衰减。如下图所示，邓力首先展示的就是从成对输入-输出数据的分类模型。
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》

邓力老师表明监督学习，即给机器出输入、输出的两种数据，让它自己去学习，这种情况下它肯定有一个映射了，一对输入输出就像一个老师，老师教给这个机器如何进行识别或预测。这个范式非常地成功，在人类已经应用的比方说语言识别和机器翻译等等方面，都是用这种范式来做的。这种范式十分成功，都是用这种一对对映射的输入输出方式来训练整个系统。但是另一方面我们可以看到这种方法的成本还是很大的，我们需要给系统提供输入跟输出成对的数据。语音识别还好一点，但是其他的应用（比方说翻译、医疗的应用、图象识别、视频相关的任务和医学影像方面的任务），那么这种映射的输入输出成对的训练方法就太贵了，成本太高了。
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》

邓力老师随后表明如果没有输入、没有一个学习材料它怎么学，所以说机器还得有一些学习材料，在这个范式里面要给机器提供一些米、一些学习材料，而又不需要人类提供那些非常成本昂贵的输入输出的映射，那怎么办呢？在这个世界上有充分的、多元的一些知识的来源，我们可以把它正和岛一个整合的系统，然后给系统、给机器，这是一个非常大胆的说法，怎么把世界上既有的多元化的信息分类到各个知识领域。
无监督学习分类器

《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》

语言模型能从分离的语料库中训练,这样就移除了成对数据（标注数据），也就不需要大量人力标注。
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》

我们假设是这样做的，在这个实验里面我们使用语言模式的信息，既使是我们提供的序列作为输入给这个机器，它出来的输出还是不能给出一个明确的标签，输出只能给出一个非常泛泛的、很慢的人类语言的标签。所以我们用真实的语言，我们用语言来作为机器学习的指导。那么自然语言的数据可以是一个很困难的东西，但是我们可以单独拿出来使用，不把这个自然语言和任何的图象进行配对。为此我们就极大地降低了培训的成本、训练机器的成本。
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》问题形式化为：

《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》原始问题的成本函数为

该损失函数的问题：成本函数即使是线性模型也高度非凸性。可以最优化这个目标函数，求出最优参数，然后就可以求出我们所需要的模型。所以邓力老师跟大家来分享了一下这个成本函数，我们可以看到刚才已经讲过了这个目标函数，最开始它是不好的，但是最后迭代以后它会越来越好。我们可以看到从网站里面它跟你的数据训练是不同的，所以这是很容易建造的，但是却很难优化。在邓力老师的演讲中，非常重要的就是采用SPDG在没有标注的情况下学习如何做预测。那么我们一起来看看邓力老师如何将前面我们形式化的原始问题转化为极小极大对偶问题，并采用随机梯度下降来求得最优参数。（注：以下参考自邓力等人今年发表的论文：An Unsupervised Learning Method Exploiting Sequential Output Statistics）为了正确地将随机梯度下降应用到前面我们形式化问题所得到的损失函数，即最小化损失函数：
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》

我们需要转换该损失函数以保证其随t的累和为对数损失。为此，我们首先需要引进凸共轭函数这一概念。给定一个凸函数 f(u)，那么其凸共轭函数f * (ν)就定义为：
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》

此外，也可以表示为：
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》

若有函数 f(u) = − ln u，其中标量 u>0，那么其共轭函数为 f* (ν) = −1 − ln(−ν)，其中标量v<0。因此根据上式定义，我们的函数和共轭函数有以下关系：
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》

其中，sup由max替代，因为上确界是可以用最大化达到的。随后我们可以将上面的函数代入最开始的损失函数中，而根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题，因此求解原始问题就等价于求解以下极小极大问题（min-max problem）：
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》

其中
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》，即V定义为所有对偶变量的集合
。 Lt(θ, V )为第t个分量函数：

极小极大问题方程的最优解(θ
，V)即称之为函数L(θ，V )的鞍点。一旦求得最优点 (θ
， V)，我们就能保留原始变量θ
作为模型学到的参数。
随机原始-对偶梯度方法（Stochastic primal-dual gradient method /SPDG）
在上式极小极大问题等价优化式中，我们先关于θ极小化L(θ, V )和关于V极大化L(θ, V )以求得最优解 (θ，V*)。这样求得的参数θ即原始问题的最优化解。我们更进一步注意到原始问题的等价式极小极大问题现在是分量函数Lt(θ, V ), t = 1, . . . , T从1到T的累和。
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》

因此，关于θ的极小化和关于V的的极大化可以由随机梯度下降解出，即L(θ, V ) 关于原始变量θ执行随机梯度下降、L(θ, V ) 关于对偶变量V执行随机梯度下降。这样重复迭代的方式，即随机原始-对偶梯度（SPDG）方法。为了计算随机梯度，我们先将L(θ, V )的全批量梯度表示为：
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》

为了计算随机梯度，我们将每个样本
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》 [I的平均值由各自的随机抽样分量
（或其小批量均值）替代，如此迭代重复下去（其中tm为集合{1, . . . , T}中的均匀随机变量）。在上述算法一中，我们使用小批量梯度概述了SPDG方法，其中梯度可以在 TensorFlow 实现中自动计算。此外，对偶变量
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》的负约束（negative constraint）由于在极大极小问题中的内在 log-barrier
而能被自动执行。因此，我们不需要独立的方法来实现约束条件。随后，邓力老师分析了对偶问题成本函数的损失表面，它表明对偶问题的损失表面具有更优良的性能，执行随机梯度下降也能得到一个很好的最优解。
《GMIS 2017大会邓力演讲：无监督学习的前沿与SPDG方法的优良性》