[译]深度神经网络的多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)

2019年10月27日 120次阅读来源: 神经网络

译自：http://sebastianruder.com/multi-task/

1. 前言

在机器学习中，我们通常关心优化某一特定指标，不管这个指标是一个标准值，还是企业KPI。为了达到这个目标，我们训练单一模型或多个模型集合来完成指定得任务。然后，我们通过精细调参，来改进模型直至性能不再提升。尽管这样做可以针对一个任务得到一个可接受得性能，但是我们可能忽略了一些信息，这些信息有助于在我们关心的指标上做得更好。具体来说，这些信息就是相关任务的监督数据。通过在相关任务间共享表示信息，我们的模型在原始任务上泛化性能更好。这种方法称为多任务学习（Multi-Task Learning），是本博文的关注点。

多任务学习有很多形式，如联合学习（Joint Learning），自主学习（Learning to Learn），借助辅助任务学习（Learning with Auxiliary Tasks）等，这些只是其中一些别名。概括来讲，一旦发现正在优化多于一个的目标函数，你就可以通过多任务学习来有效求解（Generally, as soon as you find yourself optimizing more than one loss function, you are effectively doing multi-task learning (in contrast to single-task learning)）。在那种场景中，这样做有利于想清楚我们真正要做的是什么以及可以从中得到一些启发。

即使对于最特殊的情形下你的优化目标只有一个，辅助任务仍然有可能帮助你改善主任务的学习性能。Rich Caruana 在文献[1]中总结了：“多任务学习通过使用包含在相关任务的监督信号中的领域知识来改善泛化性能”。通过学习本博文，我们将尝试对多任务学习的研究近况做一个简要的回顾，尤其是针对深度神经网络的多任务学习。首先，我们探讨了多任务学习的灵感来源。接下来，介绍多任务学习的两种最常见的方法。接着描述了使得多任务学习在实践中有效的机制。在总结较为高级的基于神经网络的多任务学习方法之前，我们回顾了以往多任务学习文献中的一些背景知识。本文接着介绍了近年来提出的一些给力的基于深度神经网络的多任务学习方法。最后，我们探讨了经常使用的辅助任务的类型以及对于多任务学习讲好的辅助任务所具备的特征。

2. 动机

我们提出多任务学习的出发点是多种多样的：（1）从生物学来看，我们将多任务学习视为对人类学习的一种模拟。为了学习一个新的任务，我们通常会使用学习相关任务中所获得的知识。例如，婴儿先学会识别脸，然后将这种知识用来识别其他物体。（2）从教学法的角度来看，我们首先学习的任务是那些能够帮助我们掌握更复杂技术的技能。这一点对于学习武术和编程来讲都是非常正确的方法。具一个脱离大众认知的例子，电影Karate Kid中Miyagi先生教会学空手道的小孩磨光地板以及为汽车打蜡这些表明上没关系的任务。然而，结果表明正是这些无关紧要的任务使得他具备了学习空手道的相关的技能。（3）从机器学习的角度来看，我们将多任务学习视为一种归约迁移（inductive transfer）。归约迁移（inductive transfer）通过引入归约偏置（inductive bias）来改进模型，使得模型更倾向于某些假设。举例来说，常见的一种归约偏置（Inductive bias）是L1正则化，它使得模型更偏向于那些稀疏的解。在多任务学习场景中，归约偏置（Inductive bias）是由辅助任务来提供的，这会导致模型更倾向于那些可以同时解释多个任务的解。接下来我们会看到这样做会使得模型的泛化性能更好。

3. 深度学习中两种多任务学习模式

前面我们讨论了多任务学习的理论源泉。为了使得多任务学习的思想更加具体，我们展示了在基于深度神经网络的多任务学习中常用两种方法：隐层参数的硬共享与软共享。（1）参数的硬共享机制：参数的硬共享机制是神经网络的多任务学习中最常见的一种方式，这一点可以追溯到文献[2]。一般来讲，它可以应用到所有任务的所有隐层上，而保留任务相关的输出层。硬共享机制降低了过拟合的风险。事实上，文献[3]证明了这些共享参数过拟合风险的阶数是N，其中N为任务的数量，比任务相关参数的过拟合风险要小。直观来将，这一点是非常有意义的。越多任务同时学习，我们的模型就能捕捉到越多任务的同一个表示，从而导致在我们原始任务上的过拟合风险越小。（2）参数的软共享机制：每个任务都由自己的模型，自己的参数。我们对模型参数的距离进行正则化来保障参数的相似。文献[4]使用L2距离正则化，而文献[5]使用迹正则化（trace norm）。用于深度神经网络中的软共享机制的约束很大程度上是受传统多任务学习中正则化技术的影响。我们接下来会讨论。《[译]深度神经网络的多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)》

4. 多任务学习为什么会有效？

即使从多任务学习中获得归约偏置的解释很受欢迎，但是为了更好理解多任务学习，我们必须探究其深层的机制。大多数机制早在1998年被Caruana提出。为了便于距离说明，我们假设有两个相关的任务A与B，两者共享隐层表示F。（1）隐世数据增加机制。多任务学习有效的增加了训练实例的数目。由于所有任务都或多或少存在一些噪音，例如，当我们训练任务A上的模型时，我们的目标在于得到任务A的一个好的表示，而忽略了数据相关的噪音以及泛化性能。由于不同的任务有不同的噪音模式，同时学习到两个任务可以得到一个更为泛化的表示（As different tasks have different noise patterns, a model that learns two tasks simultaneously is able to learn a more general representations.）。如果只学习任务A要承担对任务A过拟合的风险，然而同时学习任务A与任务B对噪音模式进行平均，可以使得模型获得更好表示F。（2）注意力集中机制。若任务噪音严重，数据量小，数据维度高，则对于模型来说区分相关与不相关特征变得困难。多任务有助于将模型注意力集中在确实有影响的那些特征上，是因为其他任务可以为特征的相关与不相关性提供额外的证据。（3）窃听机制。对于任务B来说很容易学习到某些特征G，而这些特征对于任务A来说很难学到。这可能是因为任务A与特征G的交互方式更复杂，或者因为其他特征阻碍了特征G的学习。通过多任务学习，我们可以允许模型窃听（eavesdrop），即使用任务B来学习特征G。最简单的实现方式是使用hints[6]，即训练模型来直接预测哪些是最重要的特征。（4）表示偏置机制。多任务学习更倾向于学习到一类模型，这类模型更强调与其他任务也强调的那部分表示。由于一个对足够多的训练任务都表现很好的假设空间，对来自于同一环境的新任务也会表现很好，所以这样有助于模型展示出对新任务的泛化能力[7]。（5）正则化机制。多任务学习通过引入归纳偏置（inductive bias）起到与正则化相同的作用。正是如此，它减小了模型过拟合的风险，同时降低了模型的Rademacher复杂度，即拟合随机噪音的能力。

5. 非神经网络模型中的多任务学习

为了更好理解深度神经网络中的多任务学习，我们首先回顾了线性模型、核方法、贝叶斯方法中的多任务学习方法。具体的说，我们将讨论多任务学习中两个普遍存在的重要思想：1）对任务间的不同强制加稀疏性约束的正则化项（enforcing sparsity across tasks through norm regularization）；（2）建模任务之间的关系。值得注意的是，文献中的多任务方法大多是处理同质的场景，即他们认为所有任务都与单一的输出相关。例如，MNIST数据集上的多分类问题转换为10个二分类问题来求解。近年来的工作更多的是处理异质场景：每个任务都对应不同的输出。

5.1 块稀疏正则化（Block-Sparsity Regularization）

为了更好的将这些方法联系起来，我们首先介绍了一些符号的含义。我们有T个任务，每个任务t，对应的模型记为，模型参数记为，维度为d维。我们用列向量来表示参数。将这些列向量堆起来形成一个矩阵。矩阵A的第i行对应每个模型的第i个特征，第j列对应任务j的模型参数。

现有的许多方法都对模型参数做出稀疏性假设。文献[8]认为所有模型共享参数的一个小集合。从任务参数矩阵A的角度来看，这就意味着除了少数几行外全部是0，与之对应的只有少数特征是可以在不同任务间共享的。为了强制做到这一点，在多任务学习中强制加L1正则化项。我们可以记得的是L1正则化是对参数之和上的约束，强制除少数几个外的其他所有参数为0。L1正则化又被称为LASSO（Least Absolute Shrinkage and Selection Operator）。

对于单一任务场景，L1正则化的计算仅依赖于单个任务t中的模型参数。对于多任务场景，L1正则化的计算是基于任务参数矩阵A，首先对每行（对应每个任务的第i个特征）计算正则化，产生列向量，然后计算这个向量的L1正则化，从而强迫b中大部分项为0。

我们可以使用不同的正则化，取决于我们想要对每行设置什么样的约束。一般来说，我们将之称为混合正则化（mix norm）约束正则化。由于这样做导致A的整行为0，故可称之为块稀疏性正则化（Block-Sparsity Regularization）。文献[9]使用正则化，而Argyriou使用正则化。后者又被称为group lasso，首次提出是在文献[10]中。Argyriou等人于2007年的时候证明了优化非凸的group lasso可以通过对任务参数矩阵A进行迹正则化（trace norm）约束转化为凸优化问题。也就是，强制矩阵A是低秩的，其中的每一个列向量都位于一个低维度的子空间。文献[11]为了进一步在多任务学习中使用group lasso来建立上界约束。

块稀疏正则化在直觉上是非常受欢迎的，它的受欢迎程度与它依赖于任务间参数共享程度是一样的。文献[12]证明了当任务间特征不重叠时，正则化可能会比单纯的元素层面的正则化效果更糟。因此，文献[13]提出了将块稀疏正则化与元素稀疏正则化结合以改进块稀疏模型。他们将任务参数矩阵A分解为矩阵B与S，其中A=B+S。然后，对B使用强制的块稀疏正则化，对S使用lasso来进行元素稀疏正则化。文献[14]提出了一个分布式版本的group lasso正则化。

5.2 学习任务间的关系

group稀疏性约束可以强制模型仅关注一些特征，使得这些特征被所有任务共享。已有的所有方法假设多任务学习中所有任务之间是彼此紧密相关的。然而，事实并非如此，不是每个任务都与其他任务紧密关联。在这些场景中，与不相关的任务共享信息有可能会对性能造成伤害。这种现象称为负迁移（Negative Transfer）。除了稀疏性之外，我们更想要的是使用某种先验知识来表明与一些任务是相关的，而与另一些任务是无关的，在这种情况下，对任务的聚类约束显得更为合适。文献[15]提出了一种聚类约束来同时惩罚列向量及其方差的正则化：

其中是平均参数向量。该惩罚项强制一个任务向量的聚类靠近其均值，用来控制。他们将之用在了核方法中，但是对线性方法同样适用。

文献[16]为SVM方法提出了一个类似的约束。这个约束是受贝叶斯方法启发得到的，它寻求使得所有模型接近均值模型。因此它的损失函数是每个SVM所对应的大间隔损失以及与均值模型的距离。文献[17]假设潜在的聚类正则化可以显式表示为A上的聚类约束（当聚类数C已知时），将该聚类正则化分解为三部分：

全局约束：我们的列向量参数均值有多大：

聚类间的方差约束：聚类中心到均值的距离：

聚类内的方差约束：,衡量每个聚类的紧致程度。

最后将这三部分线性组合起来得到：.

这种聚类约束中假设聚类或簇是预先知道的，所以他们引入了对上述正则项的约束进行放松。还有一些场景，任务中可能并不存在聚类想象，但是他们确实存在一个结构。文献[18]将group lasso扩展到多个任务呈现树状结构时。文献[19]将group lasso扩展到多个任务呈现图状结构时。尽管以往建模任务之间的关系大都采用加正则项的方法，但是也有以一些并没有。文献[20]是首个用kNN来表示任务聚类的算法。文献[21]试图学习到多个任务之间的一个常见结构，来应用到半监督学习中。多任务学习中很多学习任务间关系的方法采用的是贝叶斯方法。文献[22]提出了一个用于多任务学习的贝叶斯神经网络，通过对模型参数加先验来鼓励不同任务参数相似。文献[23]通过推断一个共享的协方差矩阵，将高斯过程扩展到多任务学习中。由于计算代价高，他们采用以个稀疏近似模式来贪心选择最具信息量的实例。文献[24]也采用高斯过程来做多任务学习，假设多有的模型都来自于同一个先验。文献[25]将正态分布作为先验，对每个任务相关的层进行约束。为了鼓励不同任务间的相似性，他们提出了使得均值是任务相关的，使用混合分布来建模任务间的聚类。重要的是，他们需要任务的特点是预先定义聚类，并指定混合分布的数量。基于此，文献[26]从Dirichlet过程中得到分布并能使得模型学习到任务间的相似性以及聚类的数目（簇数）。同一聚类内的所有任务共享一个模型。文献[27]提出了一个层次贝叶斯模型来学习任务间潜在的层次关系。文献[28]使用高斯过程正则化来做多任务学习，并将高斯过程扩展到大规模场景中。

其他还有一些方法在关注在线多任务学习（online Multi-task Learning）的场景：文献[29]将已有方法扩展到在线的场景。他们也提出了正则化的感知器在多任务问题上的扩展，并将任务间的关系用一个矩阵来表示。他们使用看多种形式的正则化项来对这个任务相关矩阵进行偏置，如任务特征的相关程度，生成子空间维度的相关性等。值得注意的是，以往这些方法都需要任务特点来定义一个这样的矩阵。文献[30]扩展了这些方法，通过学习得到关系矩阵。

文献[31]假设任务形成了多个分割的组，处于同一个组内的任务位于同一个低维空间中。每组内部，任务共享一组特征表示，这些参数可以与组分配矩阵使用交替最小化模式共同学习得到，然而完全分割并非最佳方式。文献[32]允许来自不同组的两个任务之间有重叠，假设存在小部分的基本的隐式任务。将每个真实任务的参数向量建模为：。其中为包含k个隐式任务的矩阵，为包含对k个向量进行线性组合的系数。此外，他们还约束这种线性组合应该是稀疏的。这种任务间的重叠应该是稀疏的，以此来控制共享参数的数量。文献[33]学习到一个共享假设的小集合，并将每个任务对应到一个假设上。

6. 深度神经网络的多任务学习的最新进展

尽管最近的许多深度学习的工作都或显式或隐式使用了多任务学习作为其模型的一部分，但是使用方式仍然没有超出我们前面提到的两种方式：参数的硬共享与软共享。相比之下，仅有少部分的工作专注于提出深度神经网络中好的多任务学习机制。

6.1 深度关系网络（Deep Relationship Networks）

在用于机器视觉的多任务场景中，已有的这些方法通常共享卷积层，将全链接层视为任务相关的。文献[34]提出了深度关系网络。除了共享层与任务相关层的结构，他们对全连接层添加矩阵先验。这将允许模型学习任务间的关系。这一点与我们之前看过的贝叶斯方法是类似的。然而，问题是这个方法依然依赖于事先预定义的共享结构。这一点对于机器视觉问题已经足够，但是对于新任务有错误倾向。