Scrapy爬虫教程五爬虫部署

2019年6月11日 325次阅读来源: 熊熊熊孩子

《Scrapy爬虫教程五爬虫部署》

Scrapy爬虫教程一 Windows下安装Scrapy的方式和问题总结

Scrapy爬虫教程二浅析最烦人的反爬虫手段

Scrapy爬虫教程三详细的Python Scrapy模拟登录知乎

Scrapy爬虫教程四 Scrapy+Selenium有浏览器界面模拟登录知乎

Scrapy爬虫教程五爬虫部署

现在使用Scrapy进行爬取数据已经轻车熟路了，那这篇文章中就讲述了一下将爬虫部署到生产环境中。scrapy官方提供了爬虫管理工具scrapyd来方便的部署爬虫。

操作环境：

Python 3.6.3

pip 9.0.1

curl 7.57.0

一.scrapyd

1.1使用scrapyd的好处？

最大的好处就是方便使用，我们可以使用它来方便地运用 JSON API来部署爬虫、控制爬虫以及查看运行日志。

1.2.scrapyd工作原理

当在一个服务器上安装并运行scrapyd服务的时候，scrapyd会以守护进程的形式来监听爬虫的运行和请求，然后启动进程来执行爬虫程序。

1.3.scrapyd的使用

1.3.1 scrapyd安装

pip install scrapyd

1.3.2 scrapyd启动

在命令行中敲入以下命令

scrapyd

启动之后的是这样的：

《Scrapy爬虫教程五爬虫部署》

scrapyd 也提供了 web 的接口。方便我们查看和管理爬虫程序。默认情况下 scrapyd 监听 6800 端口，运行 scrapyd 后。在本机上使用浏览器访问http://localhost:6800/地址即可查看到当前可以运行的项目。

《Scrapy爬虫教程五爬虫部署》

二.项目部署

使用scrapyd-client提供的scrapyd-deploy工具进行部署

2.1 原理

scrapyd 是运行在服务器端，而 scrapyd-client 是运行在客户端。客户端使用 scrapyd-client 通过调用 scrapyd 的 json 接口来部署爬虫项目。

2.2 scrapyd-client安装

在命令行中敲入以下命令

pip install scrapyd-client

2.3配置项目的服务器信息

修改工程目录下的scrapy.cfg文件

如果你的服务器上有配置HTTP basic authentication验证的话，那么还需要配置用户名和密码用来登录服务器

# -*- coding: utf-8 -*-
# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.org/en/latest/deploy.html
[settings]default = speechspider.settings
[deploy:server] #为服务器指定的一个名字这里我指定为server
url = http://localhost:6800/ #部署项目的服务器地址，现在把项目部署到本地，如果部署到其他机器上就需要更改ip
project = speechspider # speechspider为工程名称
username = *******
password = *******

2.4部署爬虫程序

在爬虫根目录下运行以下命令：

scrapyd-deploy <target> -p <project>

target为上一步在配置文件中配置的服务器名称，project为项目名称，拿我这个爬虫程序部署为例，执行的命令如下：

scrapyd-deploy server -p speechspider

部署操作会打包你的当前项目，如果当前项目下有setup.py文件，就会使用它当中的配置，没有就会自动创建一个。(如果后期项目需要打包的话，可以根据自己的需要修改里面的信息，也可以暂时不管它). 从返回的结果里面，我们可以看到部署的状态，项目名称，版本号和爬虫个数，以及当前的主机名称.

运行结果如下：

《Scrapy爬虫教程五爬虫部署》

使用以下命令查看部署结果：

scrapyd-deploy -L 服务器名称

$ scrapyd-deploy -L server
speechspider
default

刷新http://localhost:6800/页面, 也可以看到Available projects:speechspider, default的字样。

三.使用API管理爬虫

scrapyd 的 web 界面比较简单，主要用于监控，所有的调度工作全部依靠接口实现。官方推荐使用 curl 来管理爬虫。

3.1 安装curl

windows 用户可以到该网站https://curl.haxx.se/download.html下载 curl 安装包进行安装。

ubuntu/Mac 用户直接使用命令行安装即可。

3.2 开启爬虫schedule

在项目根目录下运行以下命令来开启爬虫：

《Scrapy爬虫教程五爬虫部署》

3.3 取消爬虫

《Scrapy爬虫教程五爬虫部署》

3.4 列出项目

《Scrapy爬虫教程五爬虫部署》

3.5 列出爬虫、版本、job 信息

《Scrapy爬虫教程五爬虫部署》

3.6 删除爬虫项目

《Scrapy爬虫教程五爬虫部署》

好了，爬虫程序的部署和使用API管理就介绍到这里。

    原文作者：熊熊熊孩子
    原文地址: https://www.jianshu.com/p/01dfe5675ca1
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。

Scrapy爬虫教程一 Windows下安装Scrapy的方式和问题总结

Scrapy爬虫教程二 浅析最烦人的反爬虫手段

Scrapy爬虫教程三 详细的Python Scrapy模拟登录知乎

Scrapy爬虫教程四 Scrapy+Selenium有浏览器界面模拟登录知乎

Scrapy爬虫教程五 爬虫部署

一.scrapyd

1.1使用scrapyd的好处？

1.2.scrapyd工作原理

1.3.scrapyd的使用

二.项目部署

2.1 原理

2.2 scrapyd-client安装

2.3配置项目的服务器信息

2.4部署爬虫程序

三.使用API管理爬虫

3.1 安装curl

3.2 开启爬虫schedule

3.3 取消爬虫

3.4 列出项目

3.5 列出爬虫、版本、job 信息

3.6 删除爬虫项目

Scrapy爬虫教程二浅析最烦人的反爬虫手段

Scrapy爬虫教程三详细的Python Scrapy模拟登录知乎

Scrapy爬虫教程五爬虫部署