分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装

python及scrapy框架依赖库的安装步骤:

第一步,python的安装

在Windows上安装Python

首先,根据你的Windows版本(64位还是32位)从Python的官方网站下载Python 3.5对应的64位安装程序或32位安装程序(网速慢请移步国内镜像)或者通过输入网址https://www.python.org/downloads/选择要下载的版本,然后,双击运行下载的EXE安装包:

《分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装》

如下图,并按照圈中区域进行设置,切记要勾选打钩的框,然后再点击Customize installation进入到下一步

《分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装》

 

特别要注意勾上Add Python 3.5 to PATH,然后点“Install Now”即可完成安装。

《分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装》

对于上图中,可以通过Browse进行自定义安装路径,也可以直接点击Install进行安装,点击install后便可以完成安装了。

《分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装》

 

为了检查我们的python是否安装成功,我们运行Python进行检查:

安装成功后,打开命令提示符窗口,敲入python后,会出现两种情况:

情况一:

《分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装》

看到上面的画面,就说明Python安装成功!

情况二:得到一个错误:

《分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装》

这是因为Windows会根据一个Path的环境变量设定的路径去查找python.exe,如果没找到,就会报错。如果在安装时漏掉了勾选Add Python 3.5 to PATH,那就要手动把python.exe所在的路径添加到Path中。

如果你不知道怎么修改环境变量,建议把Python安装程序重新运行一遍,务必记得勾上Add Python 3.5 to PATH

以上过程是步骤能执行的前提,请确保python已经正常安装,否则无法进行第二步。

第二步,scrapy框架的建立前提依赖库的完整安装:

《分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装》

特别说明一下:

lxml,Twisted,PyOpenssl需要下载与安装的python相同版本的,否则会报错。

这里有一种方法可以查看当前本机安装的python的版本:

进入python(IDIE或cmd均可,此处以通用的cmd进行使用)。在cmd中,输入python进入python。

然后输入import pip;print(pip.pep425tags.get_supported()),界面上输出当前python的版本信息–划线部分,(此处提供一个python3.5的图例,其他的一样)

《分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装》

然后根据python版本选择依赖库的版本号。

另外此处提供一个完整安装lxmL的参考地址:https://jingyan.baidu.com/article/ad310e80feaac71849f49e98.html

操作步骤为:

(1)通过以上的链接(手动输入吧)去下载库到本地,例如存本地的绝对路径为url

(2)通过管理员启动命令提示符这里很重要),然后通过pip install url  分别进行安装lxml,Twisted,PyOpenssl

(3)安装完成

注:windows平台需要依赖pywin32,Pywin32是一个.exe文件,需要在已经安装的python中的scripts中执行安装(next即可),这样会默认配置python。

这里需要说明一下就是上述的安装是在没有使用虚拟环境的前提下进行的,这里附上使用虚拟环境(虚拟环境包管理)后的安装步骤:

第一步:包管理的安装

pip install virtualenvwrapper-win
pip install virtualenv

默认创建的虚拟环境位于C:\Users\username\envs,但是我们有时需要把项目环境存储到其他盘,所以我们可以通过环境变量 WORKON_HOME来定制实现虚拟环境的存储位置。

通过计算机–>属性–>高级系统设置–>环境变量–>在系统变量中新建“变量名”:WORKON_HOME,变量值:“你自定义的路径”

使用workon可以查看虚拟环境包

第二步:创建一个虚拟环境

mkvirtualenv testscrapy

虚拟环境创建好之后会自动进入到该虚拟环境下

使用deactivate可以退出该虚拟环境,使用workon testscrapy可以进入到虚拟环境中

第三步:scrapy框架的安装  使用豆瓣的镜像

pip install -i https://pypi.douban.com/simple scrapy    

对于该步骤有可能会安装出错,原因为一些第三方包的缺失,

这里解决办法为在https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml中下载与我们python对应版本的包,指定下载到某一个目录下,然后在该目录下

打开虚拟环境(指的是路径必须是从当前文件所在盘开始,例如包下载到了D盘,cmd的根目录需要从D开始,如下图):

《分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装》

 

《分布式爬虫搭建系列 之一------python安装及以及虚拟环境的配置及scrapy依赖库的安装》

并在该虚拟环境下使用pip install xx 命令来安装所需的第三方的包(对于安装的包需要名称加扩展名)。例如安装lxml

pip install lxml-4.1.1-cp34-cp34m-win_amd64.whl

 以上步骤成功走完后,我们就可以开心愉快的玩耍了—-接下来开启我们scrapy框架之旅

 

详细我们可以参考:https://www.cnblogs.com/jiuyang/p/7815126.html

点赞