中文自然语言处理流程 获取语料 语料,即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语…
分类:自然语言处理
学习笔记CB010:递归神经网络、LSTM、自动抓取字幕
递归神经网络可存储记忆神经网络,LSTM是其中一种,在NLP领域应用效果不错。 递归神经网络(RNN),时间递归神经网络(recurrent neural network),结构递归神经网络(recursive neur…
中文维基百科文本数据获取与预处理
照例,先讲下环境,Mac OSX 10.11.2 ,Python 3.4.3。 下载数据 方法1:使用官方dump的xml数据 最新打包的中文文档下载地址是:https://dumps.wikimedia.org/zhw…
【好东西传送门日报】2017-12-08 星期五
【好东西传送门日报】2017-12-08 星期五 【机器学习】 1) 语义分割中的弱监督学习 http://t.cn/RYBWyIZ 2) +NIPS 2017亮点摘要 http://t.cn/RYd7eyL 3) 解密…
学习笔记CB001:NLTK库、语料库、词概率、双连词、词典
聊天机器人知识主要是自然语言处理。包括语言分析和理解、语言生成、机器学习、人机对话、信息检索、信息传输与信息存储、文本分类、自动文摘、数学方法、语言资源、系统评测。 NLTK库安装,pip install nltk 。执…
【手撕 - 自然语言处理】手撕 TextRank(03)我自己实现的 C++ 版
作者:LogM 本文原载于 https://segmentfault.com/u/logm/articles ,不允许转载~ 1. 概述 TextRank 论文地址: https://www.aclweb.org/ant…
【手撕 - 自然语言处理】手撕 TextRank(02)大佬是怎么实现 C++ 版的
作者:LogM 本文原载于 https://segmentfault.com/u/logm/articles ,不允许转载~ 1. 源码来源 comoody 大佬的源码:https://github.com/comood…
【好东西传送门日报】2017-12-27 星期三
【机器学习】 1) 云端可视化机器学习/深度学习量化平台 http://t.cn/RHb9PxI 2) SWATS:自动由Adam切换为SGD而实现更好的泛化性能 http://t.cn/RHqPJuw 3) +Mome…
jieba分词学习笔记(二)
<!– toc –> 分词模式 jieba分词有多种模式可供选择。可选的模式包括: 全切分模式 精确模式 搜索引擎模式 同时也提供了HMM模型的开关。 其中全切分模式就是输出一个字串的…
jieba与nltk结合处理评论(一)
0.前言 操作系统:Windows 64 开发工具:pycharm 全部代码以及使用材料下载下载地址 1.使用jieba对中文进行分词 1.1 测试文本 本次实验的评论comment2中的内容为: 使用了一周多才来评价 …
自然语言处理——词袋模型与向量化
词袋模型 词袋模型(Bag of Words,简称BoW),所谓的词袋模型是一种用机器学习算法对文本进行建模时表示文本数据的方法。 词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在…
学习笔记CB008:词义消歧、有监督、无监督、语义角色标注、信息检索、TF-IDF、隐含语义索引模型
词义消歧,句子、篇章语义理解基础,必须解决。语言都有大量多种含义词汇。词义消歧,可通过机器学习方法解决。词义消歧有监督机器学习分类算法,判断词义所属分类。词义消歧无监督机器学习聚类算法,把词义聚成多类,每一类一种含义。 …