我正在尝试用scikit-learn编写机器学习算法,该算法解析文本并根据训练数据对其进行分类.
直接从scikit-learn文档中获取的使用文本数据的示例使用CountVectorizer生成稀疏数组,以显示每个单词出现的次数.
>>> from sklearn.feature_extraction.text import CountVectorizer
>>> count_vect = CountVectorizer()
>>> X_train_counts = count_vect.fit_transform(twenty_train.data)
不幸的是,这并未考虑短语的任何排序.可以使用更大的ngrams(CountVectorizer(ngram_range =(min,max)))来查看特定的短语,但这会快速增加特征的数量,甚至不是那么好.
有没有一种以另一种方式处理有序文本的好方法?我绝对愿意使用自然语言解析器(nltk,textblob等)和scikit-learn.
最佳答案 那么
word2vec embedding?它是一个基于神经网络的单词嵌入到向量中,并考虑了上下文.这可以为您的分类器提供更复杂的功能集.
一个功能强大的python库,用于自然语言处理,具有良好的word2vec实现,是gensim.Gensim具有高度可扩展性和快速性,并具有高级文本处理功能.以下是如何入门的快速概述:
安装
只需要做easy_install -U gensim或pip install –upgrade gensim.
一个简单的word2vec示例
import gensim
documents = [['human', 'interface', 'computer'],
['survey', 'user', 'computer', 'system', 'response', 'time'],
['eps', 'user', 'interface', 'system'],
['system', 'human', 'system', 'eps'],
['user', 'response', 'time'],
['trees'],
['graph', 'trees'],
['graph', 'minors', 'trees'],
['graph', 'minors', 'survey']]
model = gensim.models.Word2Vec(documents, min_count=1)
print model["survey"]
这将输出“测量”映射到的矢量,您可以将其用于分类器的特征输入.
Gensim有很多其他功能,如果你对自然语言处理感兴趣,值得更好地了解它.