ubuntu系统中使用scrapyd管理scrapy项目简明教程

本文只是一个简明教程,如果要深入研究和学习,强烈建议你看官方文档。

scrapyd和scrapyd-client是什么

scrapyd是免费开源的工具,用来管理你创建的scrapy项目的有界面的管理工具。
scrapy-client是是免费开源的工具,用来打包并发布你的scrapy项目到scrapyd。用scrapyd发布要麻烦一些。这个工具简化了发布步骤。

scrapyd安装方法

本人试过使用pip install scrapyd 安装,但失败。使用源代码安装成功,下面是使用源代码安装方法。

第一步:git 源代码到本地

git clone https://github.com/scrapy/scrapyd.git

第二步:从源代码中安装

在终端CD进入源代码目录。

python3 setup.py install

scrapyd-client安装方法

与scrapyd安装基本一样

第一步:git 源代码到本地

git clone https://github.com/scrapy/scrapyd-client.git

第二步:从源代码中安装

在终端CD进入源代码目录。

python3 setup.py install

开启scrapyd

在终端使用scrapyd命令启动。
打开管理界面地址:http://localhost:6800/

发布scrapy项目到scrapyd

发布一个scrapy项目有几种方法,这里介绍最简单的一种。
第一步:在终端使用cd命令进入scrapy项目根目录,打开scrapy.cfg,按下面默认的格式修改。修改目标地址url和项目名称project。

[deploy]
url = http://localhost:6800/
username = scrapy
password = secret
project = yourproject

第二步:使用下面命令打包项目

scrapyd-deploy

打包成功返回的信息

Deploying to project "gjtjj" in http://localhost:6800/addversion.json
Server response (200):
{"status": "ok", "spiders": 1, "node_name": "chg-vm", "project": "gjtjj", "version": "1484986344"}

第三步:上传并发布项目
你只需要修改project名称与你发布时一致,spider名称与你的爬虫名称一致就可以。

curl http://localhost:6800/schedule.json -d project=gjtjj -d spider=gjtjjSpider

发布成功返回的信息

{"status": "ok", "jobid": "8d2be2b2dfb211e6b92d000c2967de0e", "node_name": "chg-vm"}

第四步:打开目标地址http://localhost:6800/, 你发布的项目就是JOB,通过log查看运行情况。

《ubuntu系统中使用scrapyd管理scrapy项目简明教程》 QQ截图20170121173631.png
《ubuntu系统中使用scrapyd管理scrapy项目简明教程》 QQ截图20170121173612.png

    原文作者:小小
    原文地址: https://www.jianshu.com/p/14ecc5a88ca5
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞