初入python,直接学习自然语言处理,没有意外的话这就是我研究生的研究方向了,瞬间就变得顺眼了起来。
一、python安装
我个人下载的是python2.7.13×32位,比较稳定。
(后来由于nltk包实在不允许,换成了3.6)
下面是IDLE的显示情况。
这里可以看出,python2和python3在语法上有一些不同。
下面是python.exe的显示情况。
然后我看这个有点寒酸,就想用一个ide,想来想去我决定用eclipse。
python+Eclipse+pydev环境搭建 – Bonker – 博客园
这篇博客里介绍的很详细了,我也不赘述了。
看看效果吧。
二、nltk的安装
nltk有三个依赖,需要先下载安装numpy,PyYAML,setuptools。
Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。
网站是这个 Natural Language Toolkit
但是我不推荐在这个网站上下载nltk的exe安装包,因为我每次都失败。
它总给我这样的提示:
我一开始想了半天也不明白,看起来是需要32位的,可是我的python就是32位的啊。换了这个版本,还是不好使……我很崩溃。后来感觉还是版本问题,既然这上面现在提供的是3.2.2版本和我的python不匹配,我干脆换一个nltk版本。
这次我找的是nltk2.0.3版本,原网站上怎么找旧版本我也是没看懂或者真的没有,图省事的话还不如直接搜这个版本号,反正和python2.7.13是匹配的。(注意一定是32位,64位也不匹配)不再报错,就说明安装成功了。
但是后来还是发现了问题。
我要用的是nltk包里的wordnet,nltk2版本的wordnet支持的函数特别少,无法支持使用。无奈只好使用nltk3,顺势把python2.7也换成了python3。
接下来就是下载nltk_data了
在下面输入
nltk.download()
会弹出这样一个窗口
这上面的东西下的特别慢,等不及的可以点后面的all packages挨个下载。
或者复制server index里的网址点进去下。
下完了再复制到相应文件夹里就是了。
不过我有一个2.2g的包下载了,复制进去了,上面显示还是out of date,目前还没解决。(反正用不到,就删了)
nltk_data下载好了之后可以试试里面的book模块。
from nltk.book import *
这样会显示book模块里带的几本书。
至于具体的操作,我们之后再讲。