Scrapy介绍和环境安装

训练营简介

本训练营从一个简单的Scrapy项目入手,先看到结果数据,然后对爬虫的结构以及Scrapy的运行规则进行剖析。再到网页的爬取规则编写和价值数据入库保存的讲解。最后针对几种不同类型的数据网站,进行爬取训练,巩固和强化自身的爬虫技能。

一、实验说明

1.1 实验内容

主要讲解如何使用系统自带的Python安装Scrapy框架。

1.2 实验环境

  • Python3.4
  • Gvim
  • Scrapy1.3.2
  • Xfce终端
  • Firefox及Firebug:分析网页利器,以及自动生成Xpath路径F12打开网页调试工具

1.3 实验知识点

  • Python及Scrapy库安装
  • Scrapy命令的简单使用

二、Scrapy介绍

Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

Scratch,是抓取的意思,这个Python的爬虫框架叫Scrapy,大概也是这个意思吧,就叫它小刮刮吧如果你查看英文页面,用工具翻译成中文,就可以看到小刮刮这个词。

三、环境的配置

实验楼的在线环境不包含Scrapy库的,我们需要自行安装Scrapy库。请先安装环境在继续后续课程学习,学习过程中请不要忘记保存环境。

sudo apt-get update  # 首先更新一下Ubuntu中的源
sudo apt-get install python3-lxml python3-dev libffi-dev libxml2-dev  #安装必备python的拓展库

《Scrapy介绍和环境安装》 安装必备的python扩展库

sudo pip3 install --upgrade pip #课程使用Python3,虚拟机自带的Python3的pip版本较低,先升级!

《Scrapy介绍和环境安装》 安装pip

sudo pip3 install --upgrade six

《Scrapy介绍和环境安装》 安装six

sudo pip3 install scrapy #安装scrapy并更新

安装完成后查看scrapy版本号,输入命令scrapy version查看版本,本训练营课程使用的是1.3.2版本

《Scrapy介绍和环境安装》 此处输入图片的描述

到目前为止,Scrapy已经安装成功了,使用命令cd进入到桌面cd Desktop,使用scrapy命令新建一个scrapy爬虫项目,命令行:scrapy startproject first_spider

《Scrapy介绍和环境安装》 创建scrapy文件流程

此时桌面上就多有一个名为first_spider的文件夹

《Scrapy介绍和环境安装》 新建Scrapy项目

四、Scrapy项目文件介绍

初始化Scrapy项目中,各文件和文件夹的作用

《Scrapy介绍和环境安装》 此处输入图片的描述

first_spider文件夹内,有一个scrapy.cfg配置文件和first_spider的文件夹

  • 第一层[一级first_spider目录]:
  • scrapy.cfg:配置文件,不需要更改
  • first_spider文件夹:第二层解释
  • 第二层[二级first_spider目录]:

    • __init__.py:特定文件,指明二级first_spider目录为一个python模块
    • item.py:定义需要的item类【实验中需要用到】
    • pipeline.py:管道文件,传入item.py中的item类,清理数据,保存或入库
    • settings.py:设置文件,例如设置用户代理和初始下载延迟
    • spiders目录:第三层解释
  • 第三层【spiders目录】

    • __init__.py:特定文件,指明二级first_spider目录为一个python模块
    • 这里是放自定义爬虫的py文件,负责从html中获得数据,传入上一层管道文件中进行数据清理

Scrapy环境的安装和Scrapy初始化项目的文件介绍就到这里,下一个实验会给出一个可以直接运行的爬虫项目,对目标网站进行数据抓取和保存,并带着大家详细的剖析。

实验楼项目传送门

Python教程、教程–传送门

    原文作者:布拉豆
    原文地址: https://www.jianshu.com/p/04ffd558660a
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞