爬虫框架scrapy总结

2019年6月11日 233次阅读来源: 会说话的乌鸦

scrapy简介：

scrapy是一个基于Twisted的异步处理框架，是纯python实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强。可以灵活的完成各种需求。我们只要定制开发几个模块就可以轻松的实现一个爬虫！

!!!扩展:
Twisted是用Python实现的基于事件驱动的网络引擎框架，Twisted支持许多常见的传输及应用层协议，包括TCP、UDP、SSL/TLS、HTTP、IMAP、SSH、IRC以及FTP。就像Python一样，Twisted也具有“内置电池”（batteries-included）的特点。Twisted对于其支持的所有协议都带有客户端和服务器实现，同时附带有基于命令行的工具，使得配置和部署产品级的Twisted应用变得非常方便。

scrapy的架构介绍：

engine：引擎，处理整个系统的数据流处理，触发事务、是整个框架的核心。
item：项目，它定义了爬取结果的数据结构，爬取的数据结构会被赋值成Item对象
Scheduler：调度器，接受引擎发过来的请求并将其加入队列当中，在引擎再次请求的时候将请求提供给引擎
Downloader：下载器, 下载网页内容返回给蜘蛛（spiders）。
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

scrapy框架的使用

 #创建一个爬虫项目
scrapy startproject 项目名称
#在项目中创建爬虫文件
scrapy genspider 爬虫文件名称  爬取网站域名
#例： scrapy genspider baidu baidu.com

《爬虫框架scrapy总结》 5bd693ab48a5f.png

1.scrapy中的解析方法

xpath选择器和css选择器:

在scrapy 中我们可以直接通过response.xpath(”) 和 response.css(”)直接调用,并通过extract（）方法，将取到的selector对象转换为字符串（在一个列表中）

2.scrapy shell

我们可以在终端scrapy shell http://xxxx.xxx.xxx 命令进入到scrapy shell 模式进行调试

3.scrapy spider

Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。

class scrapy.Spider是最基本的类，所有编写的爬虫必须继承这个类。

主要用到的函数及调用顺序为：

init() : 初始化爬虫名字和start_urls列表

start_requests() 调用make_requests_from url():生成Requests对象交给Scrapy下载并返回response

parse():

解析response，并返回Item或Requests（需指定回调函数）。
Item传给Item pipline持久化，而Requests交由Scrapy下载，并由指定的回调函数处理（默认parse())，一直进行循环，直到处理完所有的数据为止。

Scrapy Settings.py文件配置

Scrapy设置(settings)提供了定制Scrapy组件的方法。可以控制包括核心(core)，插件(extension)，pipeline及spider组件。比如设置 Pipeliine、LOG_LEVEL等。
BOT_NAME
(也是项目名称)。
使用 startproject 命令创建项目时会被自动赋值。
SPIDER_MODULES = [‘ziruproject.spiders’] NEWSPIDER_MODULE = ‘ziruproject.spiders’
爬虫的文件路径
USER_AGENT
用户代理，一般设置这个参数用来伪装浏览器请求
ROBOTSTXT_OBEY
是否遵守ROBOT协议，为False时，表示不遵守，
为True时表示遵守（默认为True）
CONCURRENT_REQUESTS
默认: 16
Scrapy downloader(下载器) 处理的最大的并发请求数量。
DOWNLOAD_DELAY
下载延迟的秒数，用来限制访问的频率
CONCURRENT_REQUESTS_PER_DOMAIN
每个域名下能够被执行的最大的并发请求数据量，
默认为８
CONCURRENT_REQUESTS_PER_IP
默认: 0
对单个IP进行并发请求的最大值。
1.如果非0，则忽略CONCURRENT_REQUESTS_PER_DOMAIN
设定,使用该设定。
也就是说，并发限制将针对IP，而不是网站。

2.该设定也影响 DOWNLOAD_DELAY: 如果
CONCURRENT_REQUESTS_PER_IP 非0，
下载延迟应用在IP而不是网站上。
COOKIES_ENABLED
是否要携带cookies，一般情况下，不是必须要携带
cookies的请求，我们将这个参数设置为False，(默认为True)
TELNETCONSOLE_ENABLED
默认: True
表明 telnet 终端 (及其插件)是否启用的布尔值。
通过Telnet可以监听当前爬虫的状态、信息，
操作爬虫等…。
DEFAULT_REQUEST_HEADERS
默认: 如下
{
‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8′,
‘Accept-Language’: ‘en’,
}
用于Scrapy HTTP请求的默认标头
EXTENSIONS
我们可以在这个参数下自定义扩展
ITEM_PIPELINES
设置并激活管道文件，为了存储数据使用，
后面的数字表示优先级，数字越小，优先级越高
DOWNLOAD_TIMEOUT
默认: 180
下载器超时时间(单位: 秒)。
自动限速（AutoThrottle）扩展
该扩展能根据Scrapy服务器及您爬取的网站的负载自动限制爬取速度。

设计目标

更友好的对待网站，而不使用默认的下载延迟0。自动调整scrapy来优化下载速度，使得用户不用调节下载延迟及并发请求数来找到优化的值。用户只需指定允许的最大并发请求数，剩下的都交给扩展来完成.

数据缓存：
目的：用来将已经发送的请求缓存下来，一遍后续使用

是否启用缓存策略
HTTPCACHE_ENABLED = True
缓存超时时间

HTTPCACHE_EXPIRATION_SECS = 0
缓存保存路径

HTTPCACHE_DIR = ‘httpcache’

缓存忽略的Http状态码
HTTPCACHE_IGNORE_HTTP_CODES = []
缓存存储的插件
HTTPCACHE_STORAGE = ‘scrapy.extensions.httpcache.FilesystemCacheStorage’
关于日志信息的设置
LOG_ENABLED
默认: True
是否启用logging。
LOG_ENCODING
默认: ‘utf-8’
logging使用的编码。
LOG_LEVEL
默认: ‘DEBUG’
log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。

CRITICAL – 严重错误(critical)
ERROR – 一般错误(regular errors)
WARNING – 警告信息(warning messages)
INFO – 一般信息(informational messages)
DEBUG – 调试信息(debugging messages)
LOG_FILE
默认: None
logging输出的文件名。如果为None，则使用标准错误输出(standard error)。　　
Logging使用
Scrapy提供了log功能，可以通过 logging 模块使用。
可以修改配置文件settings.py，任意位置添加下面两行，效果会清爽很多。

LOG_FILE = “TencentSpider.log”
LOG_LEVEL = “INFO”

Scrapy 的暂停和恢复

有些情况下，例如爬取大的站点，我们希望能暂停爬取，之后再恢复运行。

Scrapy通过如下工具支持这个功能:

一个把调度请求保存在磁盘的调度器
一个把访问请求保存在磁盘的副本过滤器[duplicates filter]
一个能持续保持爬虫状态(键/值对)的扩展
Job 路径:

要启用持久化支持，你只需要通过 JOBDIR 设置 job directory 选项。
这个路径将会存储所有的请求数据来保持一个单独任务的状态(例如：一次
spider爬取(a spider run))。必须要注意的是，这个目录不允许被不同的
spider 共享，甚至是同一个spider的不同jobs/runs也不行。也就是说，
这个目录就是存储一个单独 job的状态信息。
怎么使用??? 要启用一个爬虫的持久化，运行以下命令:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

    原文作者：会说话的乌鸦
    原文地址: https://www.jianshu.com/p/2a7f0c576b19
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。