分类：自然语言处理

中文NLP处理方法-to-do-list

中文自然语言处理流程获取语料语料，即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以，人们简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语…

递归神经网络可存储记忆神经网络，LSTM是其中一种，在NLP领域应用效果不错。递归神经网络（RNN），时间递归神经网络（recurrent neural network），结构递归神经网络（recursive neur…

照例，先讲下环境，Mac OSX 10.11.2 ，Python 3.4.3。下载数据方法1：使用官方dump的xml数据最新打包的中文文档下载地址是：https://dumps.wikimedia.org/zhw…

【好东西传送门日报】2017-12-08 星期五【机器学习】 1) 语义分割中的弱监督学习 http://t.cn/RYBWyIZ 2) +NIPS 2017亮点摘要 http://t.cn/RYd7eyL 3) 解密…

聊天机器人知识主要是自然语言处理。包括语言分析和理解、语言生成、机器学习、人机对话、信息检索、信息传输与信息存储、文本分类、自动文摘、数学方法、语言资源、系统评测。 NLTK库安装，pip install nltk 。执…

作者：LogM 本文原载于 https://segmentfault.com/u/logm/articles ，不允许转载~ 1. 概述 TextRank 论文地址： https://www.aclweb.org/ant…

作者：LogM 本文原载于 https://segmentfault.com/u/logm/articles ，不允许转载~ 1. 源码来源 comoody 大佬的源码：https://github.com/comood…

【机器学习】 1) 云端可视化机器学习/深度学习量化平台 http://t.cn/RHb9PxI 2) SWATS：自动由Adam切换为SGD而实现更好的泛化性能 http://t.cn/RHqPJuw 3) +Mome…

<!– toc –> 分词模式 jieba分词有多种模式可供选择。可选的模式包括：全切分模式精确模式搜索引擎模式同时也提供了HMM模型的开关。其中全切分模式就是输出一个字串的…

0.前言操作系统：Windows 64 开发工具：pycharm 全部代码以及使用材料下载下载地址 1.使用jieba对中文进行分词 1.1 测试文本本次实验的评论comment2中的内容为: 使用了一周多才来评价 …

词袋模型词袋模型(Bag of Words,简称BoW)，所谓的词袋模型是一种用机器学习算法对文本进行建模时表示文本数据的方法。词袋模型假设我们不考虑文本中词与词之间的上下文关系，仅仅只考虑所有词的权重。而权重与词在…

词义消歧，句子、篇章语义理解基础，必须解决。语言都有大量多种含义词汇。词义消歧，可通过机器学习方法解决。词义消歧有监督机器学习分类算法，判断词义所属分类。词义消歧无监督机器学习聚类算法，把词义聚成多类，每一类一种含义。 …