Scrapy框架介绍

2019年6月11日 258次阅读来源: 沉吟不语

Scrapy 框架

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。
框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。
Scrapy 使用了 Twisted[‘twɪstɪd] 异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

Scrapy是用python写的一个爬虫框架，当然如果只是写一些简单爬虫，python自己就有做爬虫的库，scrapy只是更加流水线化，各部分分工更加清晰.它的结构如下图：

《Scrapy框架介绍》 scrapy框架流程图

scrapy框架各个模块分别是：

① Scrapy Engine

引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(Data Flow)部分

② 调度器(Scheduler)

调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎

③ 下载器(Downloader)

下载器负责获取页面数据并提供给引擎，而后提供给spider

④ Spiders

Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站

⑤ Item Pipeline

Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)

⑥ 下载器中间件(Downloader middlewares)

下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的 response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能

⑦ Spider中间件(Spider middlewares)

Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出 (items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能

流程归纳：

1.首先下载器下载request回执的html等的response
2.然后下载器传给爬虫解析
3.接着爬虫解析后交给调度器过滤，查重等等
4.最后交给管道，进行爬取数据的处理

如何安装scrapy?

Scrapy的安装介绍
Scrapy框架官方网址：http://doc.scrapy.org/en/latest
Scrapy中文维护站点：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

升级pip版本

pip3 install --upgrade pip

利用pip安装scrapy

pip3 install scrapy

Ubuntu 安装方式

sudo pip3 install scrapy

如果不成功，可以尝试添加一些依赖库

sudo apt-get install python3-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

实战应用

1.创建爬虫项目
(1).scrapy startproject 项目名称
(2).cd进入文件夹(与项目名称同名) cd到spider文件夹
(3).scrapy genspider 爬虫名称域
通用爬虫：scrapy genspider -t crawl 爬虫名称域

2.编写items.py
在这里定义字段
字段名 = scrapy.Field()

3.编写spider(爬虫文件)
先爬后取（获取整个网页内容，再取出有用部分）

name：爬虫的识别名，它必须是唯一的，在不同的爬虫中你必须定义不同的名字.
start_urls：包含了Spider在启动时进行爬取的url列表。因此，第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。我们可以利用正则表达式定义和过滤需要进行跟进的链接。

parse()：是spider的一个方法。被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。
这个方法负责解析返回的数据、匹配抓取的数据(解析为 item )并跟踪更多的 URL。

4.存储内容—管道(Pipline)
数据持久化 :(切记激活管道)
１．可以自定义数据管道

def init(self,xxx,xxx,xxx):

可以设置一些参数，(比如，创建数据库连接，打开文件等等)

@classmethod
def from_crawler(cls,crawler):
crawler:包含了爬虫的一些核心组件，
可以获取settings中的一些参数
return cls(xxx,xxx,xxx)

    def open_spider(self,spider):
        可选方法，在爬虫开始的时候会调用
   
    def process_item(self,item,spider):
        所有的item,都会经过这个方法
        在这里做数据持久化(pymongo,mysql)
        方法１
        if isinstance(item,类名):
            做数据插入操作
        elif isinstance(item,类名):
            做数据插入操作
        方法２
            1.在item对应的类中，我们定义一个方法，返回sql语句和要插入的数据
            2.使用item调用这个方法，得到sql语句和要插入的管道
            3.执行插入操作
        
        return item　（如果将item,传递给下一个管道，必须要return）
     def close_spider(self,spider):
        可选方法，在爬虫结束的时候会调用
        在这里关闭数据库连接，关闭文件等

    原文作者：沉吟不语
    原文地址: https://www.jianshu.com/p/dce804a52f57
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。