Scrapy的基本使用(一)

产生步骤(一)

应用Scrapy爬虫框架主要时编写配置型代码

步骤1:建立一个Scrapy爬虫工程
选取一个目录(G:\pycodes\),然后执行以下命令

《Scrapy的基本使用(一)》

生成的工程目录:

《Scrapy的基本使用(一)》

《Scrapy的基本使用(一)》

产生步骤(二)

步骤2:在工程中生成一个Scrapy爬虫
进入工程目录然后执行以下命令

《Scrapy的基本使用(一)》

该命令作用:

(1)生成一个名为demo的spider

(2)在spiders目录下增加demo.py文件

(该命令仅用于生成demo.py,该文件也可以手工生成

demo.py文件

《Scrapy的基本使用(一)》

parse()用于处理响应,解析内容形成字典,发现新的URL爬取请求

产生步骤(三)

步骤3:配置产生的spider爬虫
配置:
(1)初始的URL地址
(2)获取页面后的解析方式

《Scrapy的基本使用(一)》

产生步骤(四)

步骤4:运行爬虫,获取网页
在命令行下执行如下命令

《Scrapy的基本使用(一)》

demo爬虫被执行,捕获页面被储存在demo.html

demo.py代码的完整版

《Scrapy的基本使用(一)》

两个等价版本的区别:yield关键字的使用

《Scrapy的基本使用(一)》

    原文作者:NiceBlueChai
    原文地址: https://www.jianshu.com/p/7297e58c5fa4
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞