文本分类--CNN

2019年5月18日 370次阅读来源: Nlp_小菜

作为一个NLP届的菜鸟，想把自己学到的一点知识写下来，一是帮助自己梳理知识；二是希望能够帮到一些打算入门以及正在入门的NLPer.由于我的文笔挺差的，以及学识有限，有不忍直视的地方，请多包涵。

github上有很多关于TextCNN的开源项目，从里面可以获得大量练手的数据。我在学TextCNN的时候，是在了解了cnn的基本原理之后，从github上下载了几个我觉得看着比较顺眼的(我就是觉得代码风格比较喜欢)。然后再按照自己的代码风格以及对于代码的理解进行重现。本文重点介绍TextCNN在tensorflow中的实行，所有数据均来自github，已有标签。首先根据实际数据，介绍数据预处理过程；最后说明tensorflow中的CNN实现。

1.TxetCNN数据预处理

1.1 词向量

打算自己训练词向量的同学，可以使用gensim，方便快捷，当然使用tensorflow来做也是可以的。下面是使用gensim训练词向量的代码。

《文本分类--CNN》 gensim词向量

size是词向量的维度，sg=0,是用cbow进行训练，sg=1,使用sg进行训练。

1.2 文本分词

有了打标签的文本，接下来当然是要处理它了啊。上代码。。。

《文本分类--CNN》分词处理

这步的操作主要是对文本分词，然后得到文本列表，标签列表。举个🌰。

content=[[‘文本’,’分词’],[‘标签’,’列表’]；label=[‘A’,’B’]

1.3 建立词典，词典词向量

不能是个词我就要吧。那怎么办呢？去停用词！去了停用词之后，取文本(这个文本指的是所有文本，包括训练、测试、验证集)中前N个词，表示这N个词是比较重要的，然后保存。之前训练的词向量是个数据量很大集合。很多词，我已经不需要了，我只要这N个词的词向量。同样是上代码。

《文本分类--CNN》词向量

我提取了文本的前9999个比较重要的词，并按顺序保存了下来。embeddings= np.zeros([10000, 100]) 表示我建立了一个10000个词，维度是100的词向量集合。然后将9999个词在大词向量中的数值，按1-9999的顺序，放入了新建的词向量中。第0项，让它保持是100个0的状态。

1.4 建立词典

这部分比较简单，直接上代码。

《文本分类--CNN》建立词典

注意：词典里面词的顺序，要跟新建的词向量中词的顺序一致。

1.5 标签词典

《文本分类--CNN》标签词典

将标签也词典一下。

1.6 Padding的过程

padding是将所有句子进行等长处理，不够的在句子最后补0；将标签转换为one-hot编码。

《文本分类--CNN》 padding过程

首先将句子中的词，根据词典中的索引，变成全数字的形式；标签也进行同样处理。然后，根据max_length(句子最大长度)进行padding,得到x_pad,标签转换one-hot格式。好了，到这里文本的预处理，告一段落！

1.7 读取所需数据

我们保存了10000词的词向量，我们要读取它，还有处理的句子，我们也要分批，输入进模型。

《文本分类--CNN》读取所需数据

在代码里，我用一个例子，解释了np.random.permutation的作用。

2.tensorflow中的TextCNN

《文本分类--CNN》 TextCNN过程图

2.1 定义占位符

《文本分类--CNN》占位符

2.2 embedding

《文本分类--CNN》 embedding

vocab_size:是词的个数，在这里是10000；

embedding_size：是词向量尺寸，这里是100；

embedding_lookup:我把它看成与excel vlookup类似的查找函数，是将embedding中的词向量根据input_x中的数字进行索引，然后填充。比如，input_x中的3，将input_x中的3用embedding中的第三行的100个数字进行填充，得到一个tensor:[batch_size,seq_length,embedding_size].

因为，卷积神经网络中的，conv2d是需要4维张量的，故用tf.expand_dims在embedding_input最后再补一维。

3.3 卷积层

filte 高度设定为【2，3，4】三种，宽度与词向量等宽，卷积核数量设为num_filter。假设batch_size =1，即对一个句子进行卷积操作。每一种filter卷积后，结果输出为[1,seq_length – filter_size +1,1,num_filter]的tensor。再用ksize=[1,seq_length – filter_size + 1,1,1]进行max_pooling,得到[1,1,1,num_filter]这样的tensor.将得到的三种结果进行组合,得到[1,1,1,num_filter*3]的tensor.最后将结果变形一下[-1,num_filter*3]，目的是为了下面的全连接。再次有请代码。

《文本分类--CNN》卷积层