最早接触到NLP的时候还是看的李航老师的分享,那时候听了就觉得有点玄幻,机器人和人对话等等场景。后来在和其他的一些算法团队,包括有个基友在搞智能云客服,所以或多或少了解到这块。可惜的是我们当时的业务基本上都是做推荐系统相关的,当然也基本在跟着淘宝的路子,学他们做的那些广告的系统工程。最近因为有个朋友的公司在招这块,所以拿了些时间来总结下NLP的入门,感觉做这块的人挺少的。包括最近谈的几家公司,也都面临了相似的问题,比如线下的门店信息数据都很杂,怎么从这些混杂的信息里提取一些相关联的数据,如果只是人工判断的话,效率会比较低。还有像我们之前做搜索这块,召回了很多内容的资讯,怎么从这些资讯类内容中提取关键词做热搜和排序。这些在现在的主流app里都是比较常见的功能模块。所以觉得NLP后面应该还是会有很大的应用场景。
打个招人广告:
东家守艺人 是一家位于杭州西湖区,专注于匠人的垂直电商,在匠人数量、商品数量上面具有核心竞争力。邀请NLP、搜索和推荐算法,BI数据分析相关的人加盟。
公司B轮融资,可以谈期权,不少BAT的同事等等。
有意者可以私聊我。
废话不多说,难得有些时间,就整理了几个方面的内容。
一 有哪些内容
NLP包括哪些内容,原来我们组的大佬是从微软过来的,对这方面他们比较资深,也是小冰当年的开发者,后来来了蚂蚁也在负责这块业务的整合。所以看下微软亚洲研究院周明博士的总结吧。
自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:
1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。
2.信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取等关键技术。
3.文本挖掘(或者文本数据挖掘):包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。
4.机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。
5.信息检索:对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可利用1,2,3的技术来建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
6.问答系统: 对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
7.对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。同时,为了体现个性化,要开发用户画像以及基于用户画像的个性化回复。
二 看那些课程
NLP的公开课主要有Stanford讲的比较系统,要求就是看得懂英文。
Stanford nlp公开课视频:https://www.youtube.com/playlist?list=PLuBJa2RktQX-N0flCReMywxy1E-tsF0ZC
课件链接:https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html
懒得看英文的也有一些中文博文,
(Stanford CS224d) Deep Learning and NLP课程笔记(一):Deep NLP
(Stanford CS224d) Deep Learning and NLP课程笔记(二):word2vec
(Stanford CS224d) Deep Learning and NLP课程笔记(三):GloVe与模型的评估
Coursera公开课:自然语言处理入门
Introduction to Natural Language Processing | Coursera
宗成庆中国科学院:自然语言理解
有好心人可以在留言中继续补充…
三 推荐几本书
这本是吴军老师写的很有科学趣味的一本,特别推荐
购买链接:https://s.click.taobao.com/81fnvUw
电子书:https://pan.baidu.com/s/1nxp9VVN
购买链接:https://s.click.taobao.com/YWklvUw
比较经典
电子书:https://pan.baidu.com/s/1ghaTdPh
《统计自然语言处理》宗成庆
购买链接:https://s.click.taobao.com/7JokvUw
电子书:https://pan.baidu.com/s/1bqgkEVt
-END-
微信公众号:datafa
微信群:加V 784414374
新书链接:
【数据分析侠 《人人都会数据分析》20万字书籍】http://m.tb.cn/h.AJEkoq 点击链接,再选择浏览器打开;或复制这条信息¥fSnh09F0Vpy¥后打开 手淘