使用虚拟环境,搭建python3+scrapy

使用虚拟环境

查看当前的虚拟环境
wokon

《使用虚拟环境,搭建python3+scrapy》 workon

选择自己用的

wokon xxx

《使用虚拟环境,搭建python3+scrapy》 workon article_spider

scrapy的搭建

在安装好scrapy的前前提下进行

创建scrapy

scrapy startproject ArticleSpider

《使用虚拟环境,搭建python3+scrapy》 scrapy创建

创建完成后

目录介绍

《使用虚拟环境,搭建python3+scrapy》 目录结构

scrapy大量的借鉴了django的设计理念

scrapy.cfg 配置文件 类似django
settings.py 配置文件 工程,module(路径)
pipelines.py 数据存贮
middlewares.py
items.py from 定义数据保存的一种格式 比django简单
spiders 写爬虫的目录,默认是空的

genspider 命令

scrapy genspider jobbole blog.jobbole.com
执行成功后,会在spiders目录下生成jobbole.py文件

import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/']

    def parse(self, response):
        pass

修改settings.py中的
ROBOTSTXT_OBEY = False

    原文作者:宁静消失何如
    原文地址: https://www.jianshu.com/p/309895847fa7
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞