scrapy 框架简介

2019年6月11日 320次阅读来源: 特例独行的猪

数据流向图：

《scrapy 框架简介》

1：Engine从Spider中得到第一个Requests进行爬取

2：ENGIN将Request放入SCHEDULER调度器，并且获取下个Request

3：SCHEDULER将Requests返回给ENGINE（因为ENGING进行任务调度）

4：ENGINE发送Requests到Downoader，通过Downloader Middlewares 进行处理（这一步进行Http请求，返回response）

5：通过Downloader Middleware进行资源下载(就是html信息)，如果下载完成，通过Dowloader生成一个Resonse并且发送给ENGINE

6: ENGINE 从DOWNLOADER接收 Resonse,并将Resonse发送给Spider进行处理。Spider通过Spider Middleware进行处理Response

7: Spider处理Response 并且返回items和新的Requests给ENGINE,这部分处理通过Spilder Middleware进行处理

8：Engine发送items到item Pipelines 然后发送 Request到Scheduler 并且获取下个Request进行处理

9：重复第一个步骤进行处理。

组件：

Scrapy Engine:

在scrapy中engine是核心部分，负责协调、调度其他组件和触发处理任务

Scheduler:

一个消息队列，由Engine来控制消息的进出。消息从spider中获取，写入。 engine又从scheduler中取出消息，进行解析

Downloader:

负责接收请求，下载页面，返回response

Spiders:

spider是用户自定义类，用来j解析response、提取Items

Items Pipeline:

Pipeline负责处理Items.例如：清洗，验证，持久化等

    原文作者：特例独行的猪
    原文地址: https://www.jianshu.com/p/908c427c7fab
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。