Scrapy的基本使用（一）

2019年6月11日 287次阅读来源: NiceBlueChai

应用Scrapy爬虫框架主要时编写配置型代码

步骤1：建立一个Scrapy爬虫工程
选取一个目录（G:\pycodes\），然后执行以下命令

生成的工程目录：

《Scrapy的基本使用（一）》

步骤2：在工程中生成一个Scrapy爬虫
进入工程目录然后执行以下命令

该命令作用：
（1）生成一个名为demo的spider
（2）在spiders目录下增加demo.py文件
（该命令仅用于生成demo.py，该文件也可以手工生成）

《Scrapy的基本使用（一）》

parse()用于处理响应，解析内容形成字典，发现新的URL爬取请求

步骤3：配置产生的spider爬虫
配置：
（1）初始的URL地址
（2）获取页面后的解析方式

步骤4：运行爬虫，获取网页
在命令行下执行如下命令

demo爬虫被执行，捕获页面被储存在demo.html

demo.py代码的完整版

《Scrapy的基本使用（一）》

两个等价版本的区别：yield关键字的使用

    原文作者：NiceBlueChai
    原文地址: https://www.jianshu.com/p/7297e58c5fa4
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。