我正在尝试使用不同的NLP功能进行一些KNN学习. 例如,我想使用词袋和本地POS标签. 另外,我对如何计算单个特征的相似性有所了解.就像使用余弦相似性计数(对于词袋矢量),或者使用汉明距离来表示POS标签. 但是,我不…
标签:NLP
nlp – 如何从混淆矩阵计算概率?需要分母,字符矩阵
This paper包含噪声通道中拼写错误的混淆矩阵.它描述了如何根据条件属性更正错误. 条件概率计算在第2页左栏.在第2页第2页的脚注4中,作者说:“字符矩阵可以很容易地复制,因此在附录中省略了.”我无法弄清楚它们如何…
nlp – 增量训练实体识别分类器
我正在做一些语义web / nlp研究,我有一组稀疏记录,包含数字和非数字数据的混合,表示标有从简单英语句子中提取的各种特征的实体. 例如 uid|features 87w39423|speaker=432, sessi…
nlp – 用于生成具有平滑的n-gram语言模型的包? (NLTK的替代品)
我想找到一些类型的包或模块(最好是 Python或Perl,但其他人会这样做)从输入文本自动生成n-gram概率,并且还可以自动应用一个或多个平滑算法. 也就是说,我正在寻找类似NLTK NgramModel类的东西.我…
nlp – 非英语术语提取
我正在寻找一个用多种语言进行术语提取的开源项目. 我已经找到了Yahoo BOSS Term Extraction Web Service,这很好.但是,它除英语外没有处理其他语言. 您是否知道任何支持更多语言的开源术语…
机器学习 – 新闻文章的在线聚类
是否有一种通用的在线算法来动态分类新闻?我有一个按主题分类的大量新闻数据集.我认为每个主题都是一个集群.现在我需要对突发新闻进行分类.可能,我需要动态生成新主题或新集群. 我正在使用的算法如下: 1)我通过新闻网站的一组…
nlp – “话语向量”在单词/句子嵌入中意味着什么?
当我阅读下面的论文时,我得到了一个问题,即话语向量是什么.以及如何组成这个向量. > S.Arora(TACL 2016):基于PMI的词嵌入的潜变量模型方法> S.Arora(ICLR 2017):句子嵌入…
机器学习 – OOV单词的单词嵌入
我已经从语料库中生成了单词向量,但是我面临很多单词的词汇问题.如何使用现有的单词嵌入动态生成OOV字的单词向量? 最佳答案 一个非常晚的答案(甚至不是你正在寻找的答案)但是,使用skip-gram模型你几乎不可能,因为每…
机器学习 – sklearn中的层次分类
我想知道scikit-learn包或任何其他 python包中是否存在层次分类的实现. 非常感谢你提前. 最佳答案 我在scikit-learn官方文档中找不到Hierarchical Classification的实现…
机器学习 – 用于大规模近似重复检测文件的最先进方法?
根据我的理解,NLP中的科学共识是在大型科学文献集(超过10亿份文件)中进行近似重复检测的最有效方法是在这里找到的方法: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf …
nlp – 为GLoVe单词矢量文件创建Spark模式
可在此处下载的GLoVe预训练单词向量( https://nlp.stanford.edu/projects/glove/)具有以下文件格式: government 0.38797 -1.0825 0.45025 -0.…
nlp – Java中的Spacy替代品
我目前使用spacy遍历依赖树,并生成实体. nlp = get_spacy_model(detect_lang(unicode_text)) doc = nlp(unicode_text) entities = set…