本页面由集智俱乐部的小仙女为大家整理的代码资源库,收集了大量深度学习项目图像自然语言处理领域的代码链接。包括NLP基础教程,打造聊天机器人,语音识别等等方向的代码,所有代码均按照所属技术领域建立索引,以便大家查阅使用。 …
标签:NLP
全栈 - 16 NLP 走近自然语言处理
这是全栈数据工程师养成攻略系列教程的第十六期:16 NLP 走近自然语言处理。 文本是一种极其重要的数据类型,让我们来了解下文本数据中有哪些研究问题和挖掘价值。 概念 我们在处理数据时经常会接触到文本,例如电影简介、新闻…
nlp – 为什么Penn Treebank POS标签集对单词’to’有单独的标签?
Penn Treebank tagset对于单词’to’有一个单独的标记TO,无论它是用于介词意义上(例如我去学校)还是不定式意义(例如我想吃).从整体NLP的角度来看,这有什么用途?只是简单地将无限“标记”标记为直观,…
nlp – “话语向量”在单词/句子嵌入中意味着什么?
当我阅读下面的论文时,我得到了一个问题,即话语向量是什么.以及如何组成这个向量. > S.Arora(TACL 2016):基于PMI的词嵌入的潜变量模型方法> S.Arora(ICLR 2017):句子嵌入…
自然语言处理(NLP)数据集整理
编者按:近日,国外几名网友整理了一份自然语言处理的免费/公开数据集(包含文本数据)清单,为防止大家错过这个消息,论智暂且把清单内容搬运如下。有需要的读者可直接收藏本文,或去github点个星星以示感谢。 Github:g…
nlp – 用于生成具有平滑的n-gram语言模型的包? (NLTK的替代品)
我想找到一些类型的包或模块(最好是 Python或Perl,但其他人会这样做)从输入文本自动生成n-gram概率,并且还可以自动应用一个或多个平滑算法. 也就是说,我正在寻找类似NLTK NgramModel类的东西.我…
机器学习 – 用于大规模近似重复检测文件的最先进方法?
根据我的理解,NLP中的科学共识是在大型科学文献集(超过10亿份文件)中进行近似重复检测的最有效方法是在这里找到的方法: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf …
使用OpenNLP链接多个名称查找器实体
首先是一些上下文:我正在尝试在文档集中识别街道地址,我们认为明显的解决方案是使用NLP(在这种情况下为Apache OpenNLP)工具来实现这一点,到目前为止一切虽然我们仍然需要用大量文档训练模型,但看起来很棒,但这不…
为Spark Deep Learning 添加NLP处理实现
前言 前段时间研究了SDL项目,看到了Spark的宏大愿景,写了篇Spark新愿景:让深度学习变得更加易于使用。后面看了TFoS,感觉很是巧妙,写了一篇TensorFlowOnSpark 源码解析。这些项目都得益于Spa…
免费自然语言处理(NLP)课程及教材分享
16套免费的NLP课程及经典教材分享。 1、自然语言处理圣经《自然语言处理综述 第三版》 Dan Jurafsky and James Martin https://web.stanford.edu/~jurafsky/…
深度学习在自然语言处理中的应用综述
本文为译文,原文地址:https://medium.com/@datamonsters/artificial-neural-networks-in-natural-language-processing-bcf62aa9…
机器学习 – 如何将不同的NLP功能结合起来进行机器学习?
我正在尝试使用不同的NLP功能进行一些KNN学习. 例如,我想使用词袋和本地POS标签. 另外,我对如何计算单个特征的相似性有所了解.就像使用余弦相似性计数(对于词袋矢量),或者使用汉明距离来表示POS标签. 但是,我不…