从零开始实现scrapy爬取智联招聘的岗位信息-1

近期需要自己爬取数据,于是开始学习爬虫相关的知识,在工具使用方面,经过初步调研,决定使用anaconda+scrapy 作为主力工具,另外使用Chrome 浏览器方便分析网页数据。本系列教程,将从(1)anaconda、scrapy的安装配置;(2)scrapy基本命令操作;(3)爬取单个页面数据;(4)爬取多页面数据;四部分详细阐述如何从零基础开始,实现自己的爬虫。

(1)anaconda和scrapy 的安装配置

之所以选择anaconda是因为,anaconda的安装非常简单,和普通应用程序的安装完全一样,不需要额外进行环境变量的配置等等。另外,anaconda本身自带了很多有用的工具,也减少了安装负担,在anaconda下安装其他工具如scrapy,也相对容易,不出错。下面首先开始安装anaconda。

anaconda下载地址为anaconda下载地址,这里我们选择Python3.6版本的,各位根据自己的实际情况选择是下在32位还是64位。

《从零开始实现scrapy爬取智联招聘的岗位信息-1》

唯一需要特别注意的就是安装过程中需要添加anaconda到系统环境变量中去,如下图所示。

《从零开始实现scrapy爬取智联招聘的岗位信息-1》

安装完成后,在开始菜单栏会出现很多anaconda相关项,这里我们打开Anaconda Prompt,使用  conda list  命令可以查看已经自动安装的工具包;如果我们需要创建多个互补影响的环境的话,我们可以使用  conda create -n yourproject python=3.6  命令使用建立新环境,这里我就不创建了。

接下来我们安装scrapy包,在安装之前,我们在刚刚打开的Anaconda Prompt 中添加清华的仓库镜像,之所以这样做,是为了以后安装其他包能够速度快。其命令如下:

conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config –set show_channel_urls yes

添加完成后,我们安装scrapy包,有两种方法:方法一直接在刚刚打开的Anaconda Prompt 中 使用 pip install scrapy 命令安装,稍等片刻即可安装完成;方法二是打开Anaconda Navigator ,然后点击左侧Environments,选择uninstall,然后找到对应的宝,然后apply一下就可以了。两种方法大家都可以试试。

《从零开始实现scrapy爬取智联招聘的岗位信息-1》

安装完后,可以在Anaconda Prompt 中输入scrapy 来查看是否安装成功,出现以下界面,表示安装成功。至此anaconda和scrapy全部安装完毕,接下来就要开始动手实践了。

《从零开始实现scrapy爬取智联招聘的岗位信息-1》

本文参考了lucky_yang_的博客;另外本文代码地址:链接: https://pan.baidu.com/s/1jn1aloADaqoH2Ra5343SHQ 密码: 55bc

    原文作者:岁月淡如水
    原文地址: https://www.jianshu.com/p/2ea4534c3611
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞