多任务学习

2023年1月2日 145次阅读来源: xuluohongshang

简介：
多任务学习（Multitask learning）是迁移学习算法的一种，迁移学习可理解为定义一个一个源领域source domain和一个目标领域（target domain），在source domain学习，并把学习到的知识迁移到target domain，提升target domain的学习效果（performance）。

概念解析：

多任务学习（Multi-task learning）：由于我们的关注点集中在单个任务上，我们忽略了可能帮助优化度量指标的其它信息。具体来说，这些信息来自相关任务的训练信号。通过共享相关任务之间的表征，可以使我们的模型更好地概括原始任务。这种方法被称为多任务学习（MTL）。其也是一种归纳迁移机制，主要目标是利用隐含在多个相关任务的训练信号中的特定领域信息来提高泛化能力，多任务学习通过使用共享表示并行训练多个任务来完成这一目标。归纳迁移是一种专注于将解决一个问题的知识应用到相关的问题的方法，从而提高学习的效率。比如，学习行走时掌握的能力可以帮助学会跑，学习识别椅子的知识可以用到识别桌子的学习，我们可以在相关的学习任务之间迁移通用的知识。此外，由于使用共享表示，多个任务同时进行预测时，减少了数据来源的数量以及整体模型参数的规模，使预测更加高效。因此，在多个应用领域中，可以利用多任务学习来提高效果或性能，比如垃圾邮件过滤、网页检索、自然语言处理、图像识别、语音识别等。
归纳偏执(inductive bias)：归纳迁移的目标是利用额外的信息来源来提高当前任务的学习性能，包括提高泛化准确率、学习速度和学习的模型的可理解性。提供更强的归纳偏执是迁移提高泛化能力的一种方法，可以在固定的训练集上产生更好的泛化能力，或者减少达到同等性能水平所需要的训练样本数量。归纳偏执会导致一个归纳学习器更偏好一些假设，多任务学习正是利用隐含在相关任务训练信号中的信息作为一个归纳偏执来提高泛化能力。归纳偏置的作用就是用于指导学习算法如何在模型空间中进行搜索，搜索所得模型的性能优劣将直接受到归纳偏置的影响，而任何一个缺乏归纳偏置的学习系统都不可能进行有效的学习。不同的学习算法(如决策树，神经网络，支持向量机等)具有不同的归纳偏置，人们在解决实际问题时需要人工地确定采用何种学习算法，实际上也就是主观地选择了不同的归纳偏置策略。一个很直观的想法就是，是否可以将归纳偏置的确定过程也通过学习过程来自动地完成，也就是采用“学习如何去学(learning to learn)”的思想。多任务学习恰恰为上述思想的实现提供了一条可行途径，即利用相关任务中所包含的有用信息，为所关注任务的学习提供更强的归纳偏置。

详解

1.从机器学习的角度来看，我们将多任务学习视为一种归约迁移（inductive transfer）。归约迁移（inductive transfer）通过引入归约偏置（inductive bias）来改进模型，使得模型更倾向于某些假设。举例来说，常见的一种归约偏置（Inductive bias）是L1正则化，它使得模型更偏向于那些稀疏的解。在多任务学习场景中，归约偏置（Inductive bias）是由辅助任务来提供的，这会导致模型更倾向于那些可以同时解释多个任务的解，这样做会使得模型的泛化性能更好。

2.深度学习中两种多任务学习模式：隐层参数的硬共享与软共享。
（1）参数的硬共享机制：参数的硬共享机制是神经网络的多任务学习中最常见的一种方式，一般来讲，在实际应用中，通常通过在所有任务之间共享隐藏层，同时保留几个特定任务的输出层来实现。硬共享机制降低了过拟合的风险。事实上，有文献证明了这些共享参数过拟合风险的阶数是N，其中N为任务的数量，比任务相关参数的过拟合风险要小。直观来将，这一点是非常有意义的。越多任务同时学习，我们的模型就能捕捉到越多任务的同一个表示，从而导致在我们原始任务上的过拟合风险越小。
（2）参数的软共享机制（基于约束的共享（regularization based））：每个任务都由自己的模型，自己的参数。在共享 Soft 参数时，每个任务都有自己的参数和模型。模型参数之间的距离是正则化的，以便鼓励参数相似化。我们对模型参数的距离进行正则化来保障参数的相似。如有文献使用L2距离正则化，而也有文献使用迹正则化（trace norm）。用于深度神经网络中的软共享机制的约束很大程度上是受传统多任务学习中正则化技术的影响。约束深度神经网络 Soft 参数共享的思想受到了 MTL 正则化技术的极大启发，这种思想已经用于其它模型开发。

3.多任务学习的有效性：
由于所有任务都或多或少存在一些噪音，例如，当我们训练任务A上的模型时，我们的目标在于得到任务A的一个好的表示，而忽略了数据相关的噪音以及泛化性能。由于不同的任务有不同的噪音模式，同时学习到两个任务可以得到一个更为泛化的表示（As different tasks have different noise patterns, a model that learns two tasks simultaneously is able to learn a more general representations.）。如果只学习任务A要承担对任务A过拟合的风险，然而同时学习任务A与任务B对噪音模式进行平均，可以使得模型获得更好表示F；
若任务噪音严重，数据量小，数据维度高，则对于模型来说区分相关与不相关特征变得困难。多任务有助于将模型注意力集中在确实有影响的那些特征上，是因为其他任务可以为特征的相关与不相关性提供额外的证据；
对于任务B来说很容易学习到某些特征G，而这些特征对于任务A来说很难学到。这可能是因为任务A与特征G的交互方式更复杂，或者因为其他特征阻碍了特征G的学习。通过多任务学习，我们可以允许模型窃听（eavesdrop），即使用任务B来学习特征G；
多任务学习更倾向于学习到一类模型，这类模型更强调与其他任务也强调的那部分表示。由于一个对足够多的训练任务都表现很好的假设空间，对来自于同一环境的新任务也会表现很好，所以这样有助于模型展示出对新任务的泛化能力；
单任务学习时，梯度的反向传播倾向于陷入局部极小值。多任务学习中不同任务的局部极小值处于不同的位置，通过相互作用，可以帮助隐含层逃离局部极小值；
添加的任务可以改变权值更新的动态特性，可能使网络更适合多任务学习。比如，多任务并行学习，提升了浅层共享层（shared representation）的学习速率，可能，较大的学习速率提升了学习效果；
正则化机制：多任务学习通过引入归纳偏置（inductive bias）起到与正则化相同的作用。正是如此，它减小了模型过拟合的风险，同时降低了模型的Rademacher复杂度，即拟合随机噪音的能力。

4.多任务学习MTL 有很多形式：联合学习（joint learning）、自主学习（learning to learn）和带有辅助任务的学习（learning with auxiliary task）等都可以指 MTL。一般来说，优化多个损失函数就等同于进行多任务学习（与单任务学习相反）。这些情况有助于你明确地思考如何在 MTL 方面做尝试并从中获得启发。

5.多任务学习与其他学习算法之间的关系
迁移学习：自1995年以来，迁移学习吸引了众多的研究者的目光，迁移学习有很多其他名字：学习去学习（Learning to learn）、终身学习（life-long learning）、推导迁移（inductive transfer）、知识强化（knowledge consolidation）、上下文敏感性学习（context-sensitive learning）、基于知识的推导偏差（knowledge-based inductive bias）、累计/增量学习（increment / cumulative learning）等。在机器学习、深度学习和数据挖掘的大多数任务中，会假设training和inference时，采用的数据服从相同的分布（distribution）、来源于相同的特征空间（feature space）。但在现实应用中，这个假设很难成立，往往遇到一些问题：

a.带标记的训练样本数量有限。比如，处理A领域（target domain）的分类问题时，缺少足够的训练样本。同时，与A领域相关的B（source domain）领域，拥有大量的训练样本，但B领域与A领域处于不同的特征空间或样本服从不同的分布。
b.数据分布会发生变化。数据分布与时间、地点或其他动态因素相关，随着动态因素的变化，数据分布会发生变化，以前收集的数据已经过时，需要重新收集数据，重建模型。

多任务学习是针对数据给出多个监督信息（标签）进行学习，例如识别一张图像中的脸是否是人脸、脸部表情、性别、年龄等，识别图像中车的颜色、车型、姿态等，都属于多任务分类。
多标签学习（Multilabel learning）是多任务学习中的一种，建模多个label之间的相关性，同时对多个label进行建模，多个类别之间共享相同的数据/特征。
多类别学习（Multiclass learning）是多标签学习任务中的一种，对多个相互独立的类别（classes）进行建模。这几个学习之间的关系如下图所示：
《多任务学习》

6.实例介绍

（1）人脸识别：多任务学习给出多个监督信息（标签），利用任务之间的相关性互相促进。香港中文大学汤晓鸥组发表在NIPS14的论文《Deep Learning Face Representation by Joint Identification-Verification》,提出了一种联合训练人脸确认损失和人脸分类损失的多任务人脸识别网络DeepID2（Deep IDentification-verification features）。DeepID2中共有两个损失函数,分别为人脸分类损失函数和人脸验证loss。结合两个损失学习效果会更好，原因是：分类任务旨在区分不同类，理论上，只要类别不同学习到的特征肯定不同，重点在于扩大类间距离，而验证这个任务从另一个方面提取特征：缩小类内距离，扩大类间相对距离！但是后者提取到的特征不能用于分类，只能做二值区分。所以说两个任务具有一定的互补性！
《多任务学习》

（2）脸部特征点检测：脸部特征点检测受遮挡和姿势变化等问题的影响，:通过多任务学习具有提高检测健壮性的可能性，而不是把检测任务视为单一和独立的问题。多任务学习希望把优化脸部特征点检测和一些不同但细微相关的任务结合起来，比如头部姿势估计和脸部属性推断。脸部特征点检测不是一个独立的问题，它的预测会被一些不同但细微相关的因素影响。比如一个正在笑的孩子会张开嘴，有效地发现和利用这个相关的脸部属性将帮助更准确地检测嘴角。
如下图，一个TCDCN模型，除了检测特征点任务，还有识别眼镜、笑脸、性别和姿态这四个辅助任务，通过与其它网络的对比，可以看出辅助任务使主任务的检测更准确。
《多任务学习》

TCDCN通过随机梯度下降进行学习，不同的任务有不同的损失函数和学习难度，因此有不同的收敛速度，网络结构如下图所示。早期的方法通过探索任务之间的关系，比如学习所有任务权重的协方差矩阵来解决收敛速度不同的问题，但是这种方法只能在所有任务的损失函数相同时才能应用。TCDCN采用一种尽快停止辅助任务的方法，避免这些任务对训练集过拟合后影响主任务的学习：即在训练开始时，TCDCD受所有任务的约束，避免陷入不好的局部最优；随着训练的进行，有些辅助任务将不再使主任务受益，它们的学习过程将被停止。
《多任务学习》

（3）目标检测： Fast R-CNN。Fast R-CNN 是一个物体检测的快速的基于区域的卷积网络，其中也有多任务深度学习的应用，图中展示了Fast R-CNN的网络结构。一张图片和多个RoI（感兴趣区域）输入到一个全卷积网络，每个RoI会进入一个固定大小的feature map，然后被全连接层映射到一个特征向量。每个RoI有两个输出：softmax概率和每个分类的矩形框回归补偿。

《多任务学习》
一个Fast R-CNN网络有两个输出层：第一个输出K+1个分类的概率分布；第二个输出每个分类的边框回归补偿。每个训练RoI标注为一个参考标准分类u和一个参考标准边框回归对象v，在每个标注的RoI用多任务损失函数L来共同训练分类和矩形框回归。

总结
现实世界中很多问题不能分解为一个一个独立的子问题，即使可以分解，各个子问题之间也是相互关联的，通过一些共享因素或共享表示（share representation）联系在一起。把现实问题当做一个个独立的单任务处理，忽略了问题之间所富含的丰富的关联信息。多任务学习就是为了解决这个问题而诞生的。把多个相关（related）的任务（task）放在一起学习。这样做真的有效吗？答案是肯定的。多个任务之间共享一些因素，它们可以在学习过程中，共享它们所学到的信息，这是单任务学习所具备的。相关联的多任务学习比单任务学习能去的更好的泛化（generalization）效果。

多任务学习是一种归纳迁移机制，利用额外的信息来源来提高当前任务的学习性能，包括提高泛化准确率、学习速度和已学习模型的可理解性。在学习一个问题的同时，可以通过使用共享表示来获得其他相关问题的知识。

能提高泛化能力的可能原因有三：第一，不相关任务对于聚合梯度的贡献相对于其他任务来说可以视为噪声，不相关任务也可以通过作为噪声源来提高泛化能力；第二，增加任务会影响网络参数的更新，比如增加了隐层有效的学习率；第三，多任务网络在所有任务之间共享网络底部的隐层，或许更小的容量就可以获得同水平或更好的泛化能力。因此，我们需要关注如何选择多个相关任务及数据集使网络更好地泛化，有四种机制可以帮助多任务学习网络更好地泛化：统计数据增强、属性选择、信息窃取、表示偏置。

多任务学习将会在越来越多的领域作为一种提高神经网络学习能力的手段被广泛应用。深度学习网络是具有多个隐层的神经网络，在深度学习网络中应用多任务学习是一种很自然的想法。机器视觉领域有广泛的多任务学习应用，主要方式包括：
多个任务并行输出；
同时做分类和回归或使用不同的损失函数；
多个任务如流水线般，辅助任务附加在主任务后面。

Reference
机器之心：https://www.jiqizhixin.com/articles/2017-06-23-5
[1] T. Evgeniouand M. Pontil. Regularized multi-task learning. In Proceeding of thetenth ACM SIGKDD international conference on Knowledge Discovery and DataMining, 2004.

[2] T. Jebara. MultitaskSparsity via Maximum Entropy Discrimination. In Journal of Machine LearningResearch, (12):75-110, 2011.

[3] A. Argyriou,T. Evgeniou and M. Pontil. Convex multitask feature learning. In MachineLearning, 73(3):243-272, 2008.

[4] T. G. Dietterich, L. Pratt, and S. Thrun, Eds., “Machine Learning – Special issue on inductive transfer,” Mach Learn, vol. 28, no. 1, 1997.

[5] L. Holmstrom and P. Koistinen, “Using additive noise in back-propagation training,” IEEE Trans. Neural Netw., vol. 3, no. 1, pp. 24–38, Jan. 1992.

[6] Z. Zhang, P. Luo, C. C. Loy, and X. Tang, “Facial Landmark Detection by Deep Multi-task Learning,” in Computer Vision – ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part VI, D. Fleet, T. Pajdla, B. Schiele, and T. Tuytelaars, Eds. Cham: Springer International Publishing, 2014, pp. 94–108.

[7] Y. Sun, Y. Chen, X. Wang, and X. Tang, “Deep Learning Face Representation by Joint Identification-Verification,” in Advances in Neural Information Processing Systems 27, Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, Eds. Curran Associates, Inc., 2014, pp. 1988–1996.

[8] G. B. Huang, M. Ramesh, T. Berg, and E. Learned-Miller, “Labeled faces in the wild: A database for studying face recognition in unconstrained environments,” Technical Report 07-49, University of Massachusetts, Amherst, 2007.

[9] R. Girshick, “Fast R-CNN,” in The IEEE International Conference on Computer Vision (ICCV), 2015.

    原文作者：xuluohongshang
    原文地址: https://blog.csdn.net/xuluohongshang/article/details/79044325
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。