2018年NLP领域10个热点问题研究进展

本篇文章涉及到的论文主要选自于2018年ICLR、ACL、EMNLP、CoNLL系列会议。

在论文选取和叙事框架上主要参考了Sebastian Ruder的三篇博文:

1. <10 Exciting Ideas of 2018 in NLP>

2. <EMNLP 2018 Highlights: Inductive bias, cross-lingual learning, and more>

3. <ACL 2018 Highlights: Understanding Representations and Evaluation in More Challenging Settings>

涵盖的NLP话题包括:

1. 无监督机器翻译(Unsupervised Machine Translation)

2. 预训练语言模型(Pretrained language models)

3. 常识推理数据集(Common sense inference datasets)

4. 元学习(Meta-learning)

5. 稳健的无监督方法(Robust unsupervised methods)

6. 理解表征(Understanding representations)

7. 巧妙的辅助任务(Clever auxiliary tasks)

8. 半监督学习与迁移学习相结合(Combining semi-supervised learning with transfer learning)

9. QA和大型文档推理(QA and reasoning with large documents)

10. 归纳偏差(Inductive bias)

在原博主推荐的12篇论文上,我又加入了3篇文章,作为补充。

1. 无监督机器翻译(Unsupervised Machine Translation)

目前基于神经网络的机器翻译系统(Neural Machine Translation)在指标评测(BLEU)上取得了和人类类似的表现(在人工评测上,NMT实际的准确性还是存在一些问题), 然而NMT系统需要海量的双语对齐平行语料来进行训练。除了少数语言对(英语-汉语,英语-德语)以外,大部分的语言只有少量的单语语料,这对于机器翻译系统是一个相当大的挑战。

2018年的ICLR收录了FAIR(Facebook人工智能研究院)两篇关于无监督机器翻译的论文, 主要关注怎么初始化双语语料的词典对齐,即使用小规模双语词典来初始化双方的embedding对齐,以学到一个映射矩阵W。虽然有点效果,但与监督系统相比仍然差强人意。在EMNLP 2018上,FAIR又提交了两篇论文,大幅改进了研究方法,不仅在基于神经网络的机器翻译获得了重大进展,更为显著地是基于传统统计的基于短语的机器翻译上取得了非常好的效果,这大概也是这篇文章取得Best Paper的主要原因-无监督方法+统计模型建模+优秀的初始化操作就可以得到可观的翻译效果。

Phrase-Based & Neural Unsupervised Machine Translation (EMNLP 2018)

l 研究动机

Low-resource的语言无法获得大量的平行对齐语料来进行训练。Phrase-Based Statistical Machine Translation(基于短语的统计机器翻译)建模了词对级别的对齐关系,在小规模数据集的无监督训练上,表现效果应该大于NMT。

l 解决方法

这篇论文很好地提炼出了无监督机器翻译的三个关键方法:良好的初始化、语言建模和逆向任务建模(通过反向翻译)。这三个方法在其他无监督场景中也有用。逆向任务建模可以增强循环一致性,这种一致性已经在不同的方法中得到应用,在CycleGAN中最为突出。

《2018年NLP领域10个热点问题研究进展》
《2018年NLP领域10个热点问题研究进展》

如上图所示,在无监督机器翻译中用到的三个关键方法: A)两个双语未对齐数据集,B)初始化 C)语言模型分别源语言和目标语言进行打分 D)反向翻译

在反向翻译中,作者考虑到NMT模型产生的句子流畅却不精确,PBSMT模型产生的句子精确却不流畅,通过做对比实验,发现使用PBSMT产生反向翻译的句子效果最好。

l 研究成果

论文中对两种资源较少的语言,“英语-乌尔都语”和“英语-罗马尼亚语”进行了大量的实验和评估。

《2018年NLP领域10个热点问题研究进展》

可以看到通过PBSMT模型构建反向翻译语料,使用NMT来训练双语翻译模型的效果是最好的。

EMNLP2018上还有很多关于怎样初始化W的工作,比如第5部分要讲的< A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings >就提供了另外一种不需要小规模双语词典,就可以在任意两种语言上进行初始化的方法。

Understanding Back-Translation at Scale (EMNLP2018)

这篇文章主要调研了在无监督机器翻译系统中,反向翻译机制的内在机制以及产生合成数据的若干种办法。结果发现通过采样以及束级别加噪(noised beam)是最有效的方式。反向翻译确实是一种很有效的对于神经机器翻译的数据增强的方式。

不同的产生生成数据的方式:

l 无限制采样:采样过程不加约束,容易产生完全相反或者很不相关的样本

l 有限制采样:从输出分布中选择前k个最可能的词,然后将k个词进行标准化概率之后再采样

l 束加噪:在束搜索的过程加入噪音(按一定概率选择删除,替换,交换操作)

《2018年NLP领域10个热点问题研究进展》

通过上图可以看到,束搜索+加噪是最好的产生生成数据的方式。

作者指出未来工作为:将后向传递加入到整个模型的训练过程中来,使其能够产生那些对于整体模型训练最有帮助的‘双语对齐数据’

Unsupervised Machine Translation Using Monolingual Corpora Only (ICLR2018)

本文是上述两篇工作的前作,也为FAIR同一团队所做。

首先介绍一下该工作涉及到的几个概念:

自编码器:自编码器是用于无监督任务的神经网络的一种宽泛类别。它们可以重新创建与馈送的输入相同的输入。关键在于自编码器中间有一个层,叫作 bottleneck 层。该层可以捕捉所有输入的有趣信息,去除无用信息。

《2018年NLP领域10个热点问题研究进展》

去噪自编码器去噪自编码器:

如果自编码器可以学会完全按照接收的馈送来重建输入,那么它或许什么都不用学了。这种情况下,输出可以被完美重建,但是 bottleneck 层中并没有有用特征。为了弥补,我们可以使用去噪自编码器。首先,向输入添加一些噪声,然后构建网络用来重建原始图像(不带噪声的版本)。用这种方式,通过让网络学习什么是噪声(以及真正有用的特征)使其学习图像的有用特征。

作者使用去噪编码器以无监督的方式学习特征。其中定义的损失函数为:

《2018年NLP领域10个热点问题研究进展》

图像处理可以通过在像素中添加浮点数来添加噪声,而在语言中添加噪声的方式是不同的。因此,论文作者开发了自己的噪声生成系统。他们用 C() 表示噪声函数。C() 以输入语句为输入,然后输出该语句的带噪声版本。有两种添加噪声的方法:

一种是,以 P_wd 的概率从输入中删除一个单词;另一种是,每个单词以下式中的约束从初始位置偏移:

《2018年NLP领域10个热点问题研究进展》

这里,σ是第 i 个 token 偏移后的位置。因此,上式的含义是一个 token 最多可以偏离原来位置 k 个 token 的距离。

《2018年NLP领域10个热点问题研究进展》

跨域训练如上图所示,为了学习两种语言的互译,需要构建将输入序列(语言 A)映射到输出序列(语言 B)的过程。作者称该学习过程为跨域训练。首先,采样一个输入语句 x,然后使用前一次迭代后的模型 M() 生成翻译后的输出 y,即 y=M(x)。之后,使用上述的噪声函数 C() 应用到 y 上,得到 C(y)。语言 A 的编码器将 C(y) 编码,然后由语言 B 的解码器将其解码,重构出 C(y) 的无噪声版本。

训练步骤可以总结如下:

1. 使用语言 A 的编码器和语言 B 的解码器进行翻译;

2. 给定一个带噪语句,训练每个自编码器重新生成一个去噪语句;

3. 给步骤 1 中得到的翻译语句添加噪声然后重新生成,以提升翻译能力。这一步中,语言 A 的编码器和语言 B 的解码器(以及语言 B 的编码器和语言 A 的解码器)需要一起训练。

注意虽然步骤 2 和步骤 3 是分开的,但权重是同步更新的

2. 预训练语言模型(Pretrained language models)

作为自然语言处理的核心特征表示技术,词向量(Word vectors)长期统治着自然语言处理领域,但是它最近却面临着一系列强有力的挑战:ELMo、ULMFiT 和 OpenAI Transformer和 BERT,其中10月份由Google NLP团队发布的BERT预训练模型在词级别任务(词性标注,命名实体识别,句法分析)以及句级别任务(文本推理,阅读理解)上都比之前的SOTA系统提高了1到2个点的性能。

这些方法的出现预示着一个分水岭时刻的到来了:这些预训练语言模型有可能会在自然语言处理领域造成巨大而广泛的影响,正如 ImageNet 预训练模型在计算机视觉中所造成的影响一样。

Deep contextualized word representations (NAACL-HLT 2018)

l 研究动机

预训练词向量(word2vec、glove)已经被证明在很多NLP任务上取得了非常好的效果。但这是一种以效率换表达力的做法。使用词嵌入向量就像使用那些仅仅编码了图像边缘信息的预训练特征表示向量,来初始化计算机视觉模型,尽管这种做法对许多任务都是有帮助的,但是却无法捕捉到那些也许更有用的高层次信息。采用词嵌入向量初始化的模型需要从头开始学习,模型不仅要学会消除单词歧义,还要理解单词序列的意义。这是语言理解的核心内容,它需要建模复杂的语言现象,例如语义合成性、多义性、指代、长期依赖、一致性和否定等等。因此,使用这些浅层表示初始化的自然语言处理模型仍然需要大量的训练样本,才能获得良好的性能。

本文认为词向量应该同时建模词的词法与语义信息,以及怎么根据上下文来调整词向量的表示(即建模一词多义的特征)。

l 解决方法

BiLMs(双向语言模型):使用Bi-LSTM去在一个大规模的语料库上学习双向语言模型,特别使用了CNN去学习字符级别的词表示。

ELMo:学习每个词在具体任务中的词向量表示,对每个任务,学习两种参数:标量系数和权重系数,分别用来调整整个词向量的标量大小,以及按权重对双向语言模型中的不同层中的词表示进行线性组合。

《2018年NLP领域10个热点问题研究进展》

在具体的任务中使用ELMo:使用biLMs先跑一边,记录每一层的表示,使用上述的公式抽到每个词的表示(各层的线性组合),然后当成传统的词向量去表示,但是需要拼接上一个单独的向量,用来做微调。一些实验也可以在输出层加入ELMo

l 研究成果

ELMo在6个NLP任务上的增强,依次为阅读理解、文本推理、语义角色标注、指代消解、命名实体识别、情感分析

《2018年NLP领域10个热点问题研究进展》

除了实证结果令人印象深刻之外,最引人注目的是论文的分析部分,它剔除了各种因素的影响,并对在表征中捕获的信息进行了分析。词义消歧( WSD )分析(下图左)执行得很好。两者都表明了,LM提供的词义消歧和词性标注(POS)表现都接近最先进的水平。

《2018年NLP领域10个热点问题研究进展》

第一层和第二层双向语言模型的词义消歧(左)和词性标注(右)结果。与基线相比。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Submitted to NAACL2019)

l 研究动机

现在有很多利用预训练的语言表征来完成下游NLP任务的研究,作者把它们概括为两类feature-based和fine-tuning:

《2018年NLP领域10个热点问题研究进展》
《2018年NLP领域10个热点问题研究进展》

这两类方法的共性在于它们在预训练中都使用了语言模型作为目标函数。但它们没有很好的利用上下文的信息,尽管ELMo利用了正向和反向的语言模型,可本质上仍然是两个单向模型的叠加。对于一些对于语义理解要求比较高的下游任务(例如SQuAD阅读理解),能够同时从两个方向提取context信息是至关重要的。

l 研究方法

《2018年NLP领域10个热点问题研究进展》
《2018年NLP领域10个热点问题研究进展》

采取新的预训练的目标函数:

“masked language model” (MLM) 随机mask输入中的一些tokens,然后在预训练中对它们进行预测。这样做的好处是学习到的表征能够融合两个方向上的context。这个做法我觉得非常像skip-gram。过去的同类算法在这里有所欠缺,比如上文提到的ELMo,它用的是两个单向的LSTM然后把结果拼接起来;还有OpenAI GPT,虽然它一样使用了transformer,但是只利用了一个方向的注意力机制,本质上也一样是单项的语言模型。

增加句子级别的任务:“next sentence prediction”:作者认为很多NLP任务比如QA和NLI都需要对两个句子之间关系的理解,而语言模型不能很好的直接产生这种理解。为了理解句子关系,作者同时pre-train了一个“next sentence prediction”任务。具体做法是随机替换一些句子,然后利用上一句进行IsNext/NotNext的预测。

在实际的预训练中,这两个任务是进行联合训练的。

l 工作成果

《2018年NLP领域10个热点问题研究进展》

无论是BASE模型还是LARGE模型,都在8个NLP任务上大大刷新了SOTA成绩。

3. 常识推理数据集(Common sense inference datasets)

将常识融入到模型中,是NLP最重要的前进方向之一。然而,创建一个好的数据集并不容易,即便是流行的数据集,也存在很大的偏差。今年,已经有一些很好的数据集试图教模型一些常识,如Event2Mind和SWAG,它们都来自华盛顿大学。但很意外的是,SWAG很快被BERT超越了。

Visual Commonsense Reasoning (arXiv 2018)

这是首个视觉QA数据集,每个答案都包含对答案的解释。而且,每个问题需要复杂的推理。创作者想尽办法解决可能存在的偏差,确保每个答案的正确率为25% (每个答案在整个数据集中出现4次,错误答案出现3次,正确答案出现1次)。这需要使用计算相关性和相似性的模型来解决约束优化问题。希望在创建数据集时,防止可能出现的偏差会成为一个常识。

《2018年NLP领域10个热点问题研究进展》

VCR:给定一张图片、一个区域列表和一个问题,模型必须回答这个问题,并提供一个解释其答案为何正确的理由。

4. 元学习(Meta-learning)

元学习在少样本学习、强化学习和机器人学习中得到了广泛的应用,最突出的例子是与模型无关的元学习( model-agnostic meta-learning,MAML )。但在NLP领域,元学习很少有成功的应用。在解决样本数量有限的问题上,元学习非常有用。

Meta-Learning for Low-Resource Neural Machine Translation (EMNLP 2018)

l 研究动机

任何现有问题加上Few-Shot或者Fast Adaptation都可以直接变成Meta Learning问题,那么自然就可以用Meta Learning的方法加以处理。

l 解决方法

1)构造一个translation task generator用来生成不同的翻译task用于meta-train和meta-test,这就是一般Few-Shot Learning的构造。

2)将采集的task用于MetaNMT的训练,使用MAML训,目的就是为了得到一个好的初始化参数用于Meta-Test的task实现Fast Adaptation,也就是只要用少量样本训练,就能取得好的效果。

《2018年NLP领域10个热点问题研究进展》

l 研究成果

这篇论文中,作者使用了MAML,将每一种“语言对 ”都视为单独的元任务。在NLP领域,用来适应资源较少的语言,可能是元学习的最佳用武之地了。尤其是将多语言迁移学习(如多语言BERT )、无监督学习和元学习相结合起来的时候,这是一个非常有希望取得进展的方向。

《2018年NLP领域10个热点问题研究进展》

迁移学习、多语言迁移学习与元学习的区别。 实线:学习初始化。 虚线:微调路径

这篇paper是第一篇使用Meta Learning在Few-Shot NLP问题上的paper,也是开了一个新的口子,意味着之后必然会有更多的相关的Meta Learning for NLP的paper。

5. 稳健的无监督方法(Robust unsupervised methods)

今年,我们和其他人观察到,当语言不相似时,无监督的跨语言单词嵌入方法会崩溃。这是迁移学习中的常见现象,在迁移学习中,源和目标设置之间的差异(例如,领域适应、持续学习和多任务学习中的任务)会导致模型的效果变差或崩溃。因此,在面对这种变化时,让模型更加稳健是很重要的。

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings (ACL 2018)

l 研究动机

目前的跨语言词向量(cross-lingual embedding)学习主要是通过使用2个单语语料集单独训练词向量,然后线性投影两种语言对应的向量到一个共享空间,用对抗方法去训练(即判别投影后的向量来自于源语言还是目标语言),来促使两边的词向量尽可能的投影到共享空间的相同区域。然而这种简单的方法只适用于相关语言词向量的训练上,在现实场景下,很多语言都不是相关的。

《2018年NLP领域10个热点问题研究进展》

现在的方法存在的问题:

1)局限在相关的语言库上,即如果语言之间不相关,训练效果就很差,所以这种方法在现实中还是有很强的局限性。

2)仍然需要一些弱监督信号进行初始化(例如小规模的双语词典,词典质量也很影响最终的训练效果)

l 解决方法

该篇文章提出了一种利用不同语言间的结构相似性,来进行无监督学习初始化。而且这是一个自学习方法,迭代地提高性能。

初始化词典的方法:在两种语言中,等价的词对应的分布也应该具有很高的相似性。如下图所示,分别给出了英文two,意大利语due(对应英文two)以及意大利语cane(对应英文dog)。可以看到two和due的分布更为接近。利用这种方法,本文在初始化阶段不需要提供双语词典,就可以学到很不错的对齐表示。在实际训练中,本文采用了训练对齐词典->训练映射关系迭代的学习策略。

《2018年NLP领域10个热点问题研究进展》

三个词的相似度分布。 等效翻译(“two”和“due”)的分布比非相关词(“two”和“cane”——意思是“dog”)的分布更为相似。

l 研究成果

实验设置为:双语词典抽取,衡量模型给出的双语词典与正确标注的双语词典之间的匹配度。可以看到,本文提出的方法在不提供任何监督信号的情况,取得了明显比之前方法好的性能。

《2018年NLP领域10个热点问题研究进展》

6. 理解表征(Understanding representations)

为了更好地理解表征,研究者已经做了很多努力。特别是“诊断分类器”(diagnostic classifiers)(旨在测量学习到的表征能否预测某些属性的任务)已经变得非常普遍了。

Dissecting Contextual Word Embeddings: Architecture and Representation (EMNLP 2018)

l 研究动机

现在是用语言模型训练得到的上下文级别词表示已经在很多NLP任务取得了SOTA的效果,然而我们并不清楚它们为什么这么好用。

在之前训练ELMo,作者选择BiLSTM对文本进行了建模,然而还有很多更高效的结构可以进行尝试,比如CNN以及Transformer。本篇文章对LSTM、CNN以及self-attention三种模型,在(a任务准确率以及(b表示特性上进行了定性的分析

l 解决方法

比较三种模型在不同参数规模下对于语言模型的训练效果,以困惑度(Perplexity)作为衡量指标,越低越好

《2018年NLP领域10个热点问题研究进展》

在文本推理、语义角色标注、句法成分分析、命名实体识别四个任务上做了相关实验,三种模型都比预训练词向量(GloVe)表现要好

《2018年NLP领域10个热点问题研究进展》

不同的chunk确实按照其label进行了聚类,证明当前的模型确实捕捉到了span级别的信息

《2018年NLP领域10个热点问题研究进展》

基于假设:越上层的层越能捕捉长距离的语言信息,即块级别的信息,做了如下的实验

《2018年NLP领域10个热点问题研究进展》

相似度矩阵分析:左边是lstm的最下层,右边是lstm的最上层,明显右边可以观察到明显的分块现象

l 研究成果

模型选择上需要做关于速度和准确度的权衡;模型学到了丰富的分层的上下文信息,即表示能力和网络深度有关:浅层学语法,深层学语义(类似于CV任务中的CNN);作者在结论部分也指出,未来的工作可以尝试将无监督的biLM的训练目标与已进行标注的数据集进行借口,尝试进行多任务学习或者半监督学习。

这篇论文在更好理解预训练语言模型表征方面做出了很大贡献。他们广泛地研究了精心设计的无监督和有监督任务上学习到的单词和跨度表征。结果发现:预训练表征会在较低层学习到与低级形态和句法任务相关的任务,在较高层学习到更大范围的语义。这实际上表明,预训练语言模型确实能捕捉文本的相似属性,正如计算机视觉模型在 ImageNet 上预训练后,能捕捉图像之间的相似属性。。

《2018年NLP领域10个热点问题研究进展》

BiLSTM 和 Transformer预训练表征在词性标注,成分句法分析,和无监督共指解析((从左到右)方面每层的性能。

7. 巧妙的辅助任务(Clever auxiliary tasks)

在许多场景中,我们已经看到越来越多的学者使用多任务学习和精心选择的辅助任务。就一项好的辅助任务来说,数据必须易于访问。一个最突出的例子是BERT,它使用下一句预测(在Skip-thoughts中使用过,最近在Quick-thoughts使用)取得了很大的效果。

Syntactic Scaffolds for Semantic Structures (EMNLP 2018)

这篇论文提出了一个辅助任务,通过预测每个跨度对应的句法成分类型,来预处理跨度表征。尽管从概念上来说很简单,但是辅助任务在推动跨度预测任务出现大幅度改进方面很重要,例如语义角色标注和共指解析。这篇论文证明了,在目标任务所要求的水平上学习专门的表征非常有用。

pair2vec: Compositional Word-Pair Embeddings for Cross-Sentence Inference (arXiv 2018)

基于相似的脉络,本文通过最大化“词对”与其语境之间的点互信息来预训练“词对”表征。 这激励了模型去学习更多有意义的“词对”表征,而不是更通用的目标,比如语言建模。对于需要跨句子推理的任务,如 SQuAD MultiNLI,预训练表征是有效的。将来或许可以看到更多的预训练任务,能够捕捉特别适合于某些下游任务的属性,并与更多通用任务(如语言建模)相辅相成。

8. 半监督学习与迁移学习相结合(Combining semi-supervised learning with transfer learning)

实际上,预训练表征与许多半监督学习表征的方法是互补的。已经有学者探索了自我标注的方法,这是一种特殊类型的半监督学习。

Semi-Supervised Sequence Modeling with Cross-View Training (EMNLP 2018)

l 研究动机

非监督表示学习算法,例如word2vec和ELMo都能提高很多监督式NLP模型的精确度,主要是因为他们可以利用大量无标签文本。但是,监督模型在训练时只从特殊的、带有标签的数据上进行学习。

计算机视觉领域常常采用这样的半监督训练方法:使用teacher网络对无标注文本进行标注,然后以此来训练student网络,为了增强训练上的精度,训练者常常在标注之后的样本上加入噪音。但是这种加噪的方法很难移植到NLP这种高度离散化的特征空间上来

于是本文提出了一种跨视图训练的方法,这是一种半监督学习算法,可以用有标记和无标记的混合数据提升Bi-LSTM句子编码表示。确保对不同输入观点的预测与主模型的预测一致,可以在不同的任务集合中获得收益。这个想法类似于单词dropout,但是可以利用未标记的数据来使模型更加稳健。与其他自组合模型相比,它是专门为特定的NLP任务设计的。

l 研究方法

《2018年NLP领域10个热点问题研究进展》

如上图所示(命名实体识别任务),如果是有标注数据,CVT就进行正常的有监督学习;如果是未标注数据,CVT辅助预测任务就会使用input的不同表示(上图为删去一部分短语)来模拟主函数的正常输出。可以看到,这种辅助预测,主要是增强了模型的基础表示学习能力,例如‘traveled to’后面更容易跟一个‘location’。

与多任务学习的结合:

可以将辅助任务设置为所有的有标注数据的任务类型,然后再依次使用标注数据和未标注数据进行训练

l 研究成果

《2018年NLP领域10个热点问题研究进展》

半监督学习中,增大模型的大小(此处为序列标注任务中LSTM的维度)能够较为明显提高模型的性能。而传统的监督学习中,大模型并不能带来提高,所以之前的工作一般将其设置为300左右。

《2018年NLP领域10个热点问题研究进展》

CVT与多任务学习相结合能够进一步提升其训练效果。

9. QA和大型文档推理(QA and reasoning with large documents)

随着一系列新的问答数据集的出现,问答系统有了很大的发展。除了对话式问答和多步推理,问答最具挑战性的方面是综合叙述和处理大体量信息。

The NarrativeQA Reading Comprehension Challenge (TACL 2018)

这篇论文基于对整部电影剧本和书籍问题的回答,提出了一个具有挑战性的新QA数据集。虽然依靠目前的方法仍无法完成这项任务,但模型可以选择使用摘要(而不是整本书)作为语境来选择答案(而不是生成答案)。这些变体使完成任务更加可行,并使模型能够逐步扩展到完整的语境。我们需要更多这样的数据集,它们会带来有挑战性的问题,但这些问题能够逐步解决。

《2018年NLP领域10个热点问题研究进展》

QA数据集的比较

10. 归纳偏置(Inductive bias)

归纳偏置主要是指机器学习算法在学习过程中对某种类型假设的偏好,也就是模型在遇到新的(之前没有见过的)输入的时候,更倾向于给出什么的输出/判断/预测。

归纳偏差广泛存在于现在的神经网络训练中,如CNN中的卷积、正则化、dropout和其他机制,它们起到调节器的作用,使模型更具样本效率。

然而,提出一个应用更加广泛的归纳偏差方法,并将其融入模型是一个挑战。

href=””>a) Sequence classification with human attention (CoNLL 2018)

l 研究动机

目前广为流行的Seq2seq模型中注意力机制本质上就是在模仿人类阅读文本的机制(只关注少部分但是非常重要的词例如实词,而忽略虚词);而在训练注意力模型的时候需要大量的数据作为支撑;同时注意力机制如果训练不够充分,将会对整体的模型训练产生严重的错误级联效应。

l 解决方法:

借助人类的注意力信息来作为训练注意力模型时的一个归纳偏执;人类的注意力信息主要来自于视觉跟踪语料库(eye-tracking corpora),即文本本身附加了阅读者阅读时的停留时间,类似一种热力图(heat-map)的表示。

具体做法是在训练RNN的注意力层时,使其监督信号在标注文本和人类注意力信息之间来回切换。

l 研究成果

在情感分析、语法错误检测、脏话检测等一系列句子分类任务上达到明显的提高。其中人类的注意力既可以看做提供了新的训练监督信号也可以看做是对模型的一种正则化处理,使其在不同领域的数据集表现上更加鲁棒(相比直接在不同数据集上进行联合训练)。

《2018年NLP领域10个热点问题研究进展》

BL基线系统、BNC词频增强基线系统、人类注意力增强

注意力机制广泛存在于神经网络的训练中,除了自然语言处理以外,也可以扩展到语音处理、图像处理等领域,所以找到一个有效地训练它的方法(精度高、需要数据更少)是一个重要的方向。

另外,论文还证明了人类语言学习可以帮助改进计算模型。

Linguistically-Informed Self-Attention for Semantic Role Labeling (EMNLP 2018)

l 研究动机

先验信息(例如高质量的词法标注信息)能够很好地增强目前语义角色标注(Semantic Role Labeling)模型的性能;而SRL作为一个显式建模语义信息的任务,高质量的SRL模型能够很好地促进很多下游任务的发展 (机器翻译,对话系统)。

有关研究表明,目前DNN(省略了句法信息的建模)在做SRL任务的时候很多错误都来源于prepositional phrase attachment(介词短语连接问题)。所以目前面临的一个问题就是,我们的SRL-DNN模型如何最大化的收益于辅助句法任务。

l 解决方法

提出了一种基于Transformer模型的多任务学习训练机制,同时完成以下四种NLP任务:

i. 联合预测词性和谓词

ii. 句法分析

iii. 将一个注意力头连接到句法分析的父亲结点

iv. 语义角色标注

前人在处理这类任务的时候还需要进行谓词预测,并且需要训练单独的模型来进行语法信息分析。而该篇文章则完全是端到端训练的,并且只需要编码句子一次,就可以完成上述的4种任务。并且在预测的时候,就已经获得了一个高性能的句法分析器。

《2018年NLP领域10个热点问题研究进展》

l 研究成果

这篇论文有很多亮点:一个共同训练句法和语义任务的转换器;在测试时注入高质量解析的能力;和范围外评估。论文中还通过训练一个注意力头来关注每个token的句法父项,使Transformer的多头注意力对句法更加敏感。在未来,有望看到更多Transformer注意力头用于辅助预测集中在特定方面的输入。

CoNLL-2005 and CoNLL-2012:达到了新的SOTA

out-of-domain Brown test set:比之前的SOTA高了3.5F1值,相当于减少了10%的错误

CoNLL-2012:比SOTA高了2.5 F1

甚至相比于NAACL2018刷榜的ELMo,也在CoNLL2005和out-of-domain的数据上分别高了1个和2个点。

参考论文:

1. Phrase-Based & Neural Unsupervised Machine Translation (EMNLP 2018)

2. Understanding Back-Translation at Scale (EMNLP2018)

3. Unsupervised Machine Translation Using Monolingual Corpora Only (ICLR2018)

4. Deep contextualized word representations (NAACL-HLT 2018)

5. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Submitted to NAACL2019)

6. Visual Commonsense Reasoning (arXiv 2018)

7. Meta-Learning for Low-Resource Neural Machine Translation (EMNLP 2018)

8. A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings (ACL 2018)

9. Dissecting Contextual Word Embeddings: Architecture and Representation (EMNLP 2018)

10. Syntactic Scaffolds for Semantic Structures (EMNLP 2018)

11. pair2vec: Compositional Word-Pair Embeddings for Cross-Sentence Inference (arXiv 2018)

12. Semi-Supervised Sequence Modeling with Cross-View Training (EMNLP 2018)

13. The NarrativeQA Reading Comprehension Challenge (TACL 2018)

14. Sequence classification with human attention (CoNLL 2018)

15. Linguistically-Informed Self-Attention for Semantic Role Labeling (EMNLP 2018)

    原文作者:Longxu
    原文地址: https://zhuanlan.zhihu.com/p/53715920
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞