前言
1.什么是scrapy?为什么要用scrapy?
scrapy的官方解释如下:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
其次为什么要用scrapy呢?相信你能了解到scrapy那肯定也对python爬虫有一些了解,基于个人的学习经验,我觉得之所以要用scrapy,是因为当我们在做大规模爬虫的时候,我们会发现仅仅依靠beautifulsoup,requests等这些第三方爬虫库的时候会显得非常吃力,往往难以实现难度稍高点的爬虫项目,比如:爬虫的迭代回调,暂停恢复,异常捕捉,反爬机制,多线程等都是我们在做一个具有一定数据规模的爬虫时所需要考虑的因素。
2.哪些人适合学习scrapy,或者说适合阅读本文?
本文适合对python以及爬虫有一定了解最好是有一些简单的实战基础的,换而言之scrapy属于python爬虫的进阶学习,如果你还不具备相关的基础知识,建议先去学习一些python基础知识,能达到运用beautifulsoup和requests熟练的爬取大部分页面小规模的爬取。
3.本文关于scarpy的学习思路?以及亮点?
本文将围绕目前本人对百度贴吧的爬虫的项目,从最基本的scrapy实现到全网数据的实时抓取,本文的所有内容将会围绕此次爬虫项目为中心,不断的完善各个模块,各种细节功能的实现,希望能在自我成长学习的过程中也能给大家大家带来一些学习经验,避免走一些弯路。
本文的亮点:scrapy官方文档无疑是最好的学习资料,但是文档中各个模块的功能都独立开来,并且列举的demo往往都比较简单常常无法满足我们自身项目实战的需要,因此本人希望本文也能给一些正在学习scrapy的同学提供一些参考。
正文
目录
scrapy的安装
- 现在的scrapy安装相比之前版本时候的安装已经是方便了太多了,貌似是pip升级了吧,之前安装scrapy这种高级库需要自行下载很多依赖包,各种依赖关系傻傻分不清楚,好的是还没折腾过的同学你们有福气了,只需下面一条同python其他普通库一样的安装命令即可自行加载各种依赖包。
pip install scrapy
- 要不要这爽,就是这么简单,除次之外还有一个小坑需要注意:
Microsoft Visual C++ Compiler for Python 2.7
- 如果你是第一次安装scrapy并且之前没有安装过这个微软的插件则会报错,根据错误提示去微软官网下载对应的安装包,安装成功之后再次pip install scrapy即可。