由于人工神经网络可以对非线性过程进行建模,因此已经成为解决诸如分类,聚类,回归,模式识别,维度简化,结构化预测,机器翻译,异常检测,决策可视化,计算机视觉和其他许多问题的利器。这种广泛的能力使得人工神经网络可以应用于许多领域。在本文中,我们讨论了人工神经网络在自然语言处理任务(NLP)中的应用。
NLP包括广泛的语法,语义,会话和语音等任务。我们将主要描述神经网络取得优异成绩的一些领域。
信息抽取
信息抽取的主要任务是从非结构化文档自动导出结构化信息。该任务包括许多子任务,如命名实体识别,一致性解析,关系抽取,术语抽取等。
命名实体识别(NER)
命名实体识别(NER)的主要任务是将诸如Guido van Rossum,Microsoft,London等的命名实体分类为人员,组织,地点,时间,日期等预定类别。许多NER系统已经创建,其中最好系统采用的是神经网络。
在《Neural Architectures for Named Entity Recognition》文章中,提出了两种用于NER模型。这些模型采用有监督的语料学习字符的表示,或者从无标记的语料库中学习无监督的词汇表达[4]。使用英语,荷兰语,德语和西班牙语等不同数据集,如CoNLL-2002和CoNLL-2003进行了大量测试。该小组最终得出结论,如果没有任何特定语言的知识或资源(如地名词典),他们的模型在NER中取得最好的成绩。
词性标注
词性标注(POS)具有许多应用,包括文本解析,文本语音转换,信息抽取等。在《Part-of-Speech Tagging with Bidirectional Long Short-Term Memory Recurrent Neural Network》工作中,提出了一个采用RNN进行词性标注的系统[5]。该模型采用《Wall Street Journal data from Penn Treebank III》数据集进行了测试,并获得了97.40%的标记准确性。
文本分类和分类
文本分类是许多应用程序中的重要组成部分,例如网络搜索,信息过滤,语言识别,可读性评估和情感分析。神经网络主要用于这些任务。
Siwei Lai, Liheng Xu, Kang Liu, and Jun Zhao在论文《Recurrent Convolutional Neural Networks for Text Classification》中,提出了一种用于文本分类的循环卷积神经网络,该模型没有人为设计的特征。该团队在四个数据集测试了他们模型的效果,四个数据集包括:20Newsgroup(有四类,计算机,政治,娱乐和宗教),复旦大学集(中国的文档分类集合,包括20类,如艺术,教育和能源),ACL选集网(有五种语言:英文,日文,德文,中文和法文)和Sentiment Treebank数据集(包含非常负面,负面,中性,正面和非常正面的标签的数据集)。测试后,将模型与现有的文本分类方法进行比较,如Bag of Words,Bigrams + LR,SVM,LDA,Tree Kernels,RecursiveNN和CNN。最后发现,在所有四个数据集中,神经网络方法优于传统方法,他们所提出的模型效果优于CNN和循环神经网络。
语义分析和问题回答
问题回答系统可以自动回答通过自然语言描述的不同类型的问题,包括定义问题,传记问题,多语言问题等。神经网络可以用于开发高性能的问答系统。
在《Semantic Parsing via Staged Query Graph Generation Question Answering with Knowledge Base》文章中,Wen-tau Yih, Ming-Wei Chang, Xiaodong He, and Jianfeng Gao描述了基于知识库来开发问答语义解析系统的框架框架。作者说他们的方法早期使用知识库来修剪搜索空间,从而简化了语义匹配问题[6]。他们还应用高级实体链接系统和一个用于匹配问题和预测序列的深卷积神经网络模型。该模型在WebQuestions数据集上进行了测试,其性能优于以前的方法。
释义检测
释义检测确定两个句子是否具有相同的含义。这个任务对于问答系统尤其重要,因为同样的问题可以有多种描述方式。
《Detecting Semantically Equivalent Questions in Online User Forums》文中提出了一种采用卷积神经网络来识别语义等效性问题的方法。实验使用Ask Ubuntu社区问答(Q&A)站点和Meta Stack Exchange数据来进行网络训练。已经表明,所提出的CNN模型取得了很高的精度,特别是采用领域相关的数据来预训练Word Embedding之后。作者将他们的模型的性能与支持向量机和重复检测方法等传统方法进行了比较。他们表示,他们的CNN模型大大优于传统的baseline[7]。
《 Paraphrase Detection Using Recursive Autoencoder》文中提出了使用递归自动编码器的进行释义检测的一种新型的递归自动编码器架构。它使用递归神经网络学习短语表示。这些表示是在n维语义空间中的向量,其中具有相似含义的短语彼此接近[8]。为了评估系统,使用Microsoft Research Paraphrase语料库和英语Gigaword语料库。该模型与三个baseline进行比较,优于它们。
语言生成和多文档总结
自然语言生成有许多应用,如自动撰写报告,基于零售销售数据分析生成文本,总结电子病历,从天气数据生成文字天气预报,甚至生成笑话。
研究人员在最近的一篇论文《 Natural Language Generation, Paraphrasing and Summarization of User Reviews with Recurrent Neural Networks》中,描述了基于循环神经网络(RNN)模型,能够生成新句子和文档摘要的。该论文描述和评估了俄罗斯语820,000个消费者的评论数据库。网络的设计允许用户控制生成的句子的含义。通过选择句子级特征向量,可以指示网络学习,例如,“在大约十个字中说出一个关于屏幕和音质的东西”[9]。语言生成的能力可以生成具有不错质量的,多个用户评论的抽象摘要。通常,总结报告使用户可以快速获取大型文档集中的主要信息。
机器翻译
机器翻译软件在世界各地使用,尽管有限制。在某些领域,翻译质量不好。为了改进结果,研究人员尝试不同的技术和模型,包括神经网络方法。《Neural-based Machine Translation for Medical Text Domain》研究的目的是检查不同训练方法对用于,采用医学数据的,波兰语-英语机器翻译系统的影响。采用The European Medicines Agency parallel text corpus来训练基于神经网络和统计机器翻译系统。证明了神经网络需要较少的训练和维护资源。另外,神经网络通常用相似语境中出现的单词来替代其他单词[10]。
语音识别
语音识别应用于诸如家庭自动化,移动电话,虚拟辅助,免提计算,视频游戏等诸多领域。神经网络在这一领域得到广泛应用。
在《Convolutional Neural Networks for Speech Recognition》文章中,科学家以新颖的方式解释了如何将CNN应用于语音识别,使CNN的结构直接适应了一些类型的语音变化,如变化的语速[11]。在TIMIT手机识别和大词汇语音搜索任务中使用。
字符识别
字符识别系统具有许多应用,如收据字符识别,发票字符识别,检查字符识别,合法开票凭证字符识别等。文章《Character Recognition Using Neural Network》提出了一种具有85%精度的手写字符的方法[12]。
拼写检查
大多数文本编辑器可以让用户检查其文本是否包含拼写错误。神经网络现在也被并入拼写检查工具中。
在《Personalized Spell Checking using Neural Networks》,作者提出了一种用于检测拼写错误的单词的新系统。这个系统通过打字员做出的具体修正的数据进行模型训练[13]。它揭示了传统拼写检查方法的许多缺点。
概述
在本文中,我们描述了可以使用神经网络解决的自然语言处理问题。神经网络可以用于文本分类,信息提取,语义解析,问答,释义检测,语言生成,多文档分类,机器翻译,语音识别等诸多领域。在许多情况下,神经网络方法优于其他方法。
参考资源:
1. http://www.aclweb.org/anthology/D14-1181
2. https://arxiv.org/pdf/1502.01710.pdf
3. https://www.aaai.org/ocs/index.php/AAAI/AAAI15/paper/view/9745/9552
4. http://www.aclweb.org/anthology/N16-1030
5. https://arxiv.org/pdf/1510.06168.pdf
6. http://www.aclweb.org/anthology/P15-1128
7. https://www.aclweb.org/anthology/K15-1013
8. https://nlp.stanford.edu/courses/cs224n/2011/reports/ehhuang.pdf
9. http://www.meanotek.ru/files/TarasovDS(2)2015-Dialogue.pdf
10. http://www.sciencedirect.com/science/article/pii/S1877050915025910
11. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/CNN_ASLPTrans2-14.pdf
12. http://www.ijettjournal.org/volume-4/issue-4/IJETT-V4I4P230.pdf
13. http://www.cs.umb.edu/~marc/pubs/garaas_xiao_pomplun_HCII2007.pdf