爬虫四部曲,本人按自己的步骤来写,可能有很多漏洞,望各位大神指点指点
1、创建项目
scrapy startproject xiaohuawang
scrapy.cfg: 项目的配置文件
xiaohuawang/: 该项目的python模块。之后您将在此加入代码。
xiaohuawang/items.py: 项目中的item文件.
xiaohuawang/pipelines.py: 项目中的pipelines文件.
xiaohuawang/settings.py: 项目的设置文件.
2、进入xiaohuawang目录然创建爬虫名及爬取范围
cd xiaohuawang
scrapy genspider xhwang http://xiaohuar.com
3、创建爬取的项目(xiaohuawang/item.py)
4、编写爬虫
xiaohuawang/spider/xhwang.py: 爬虫文件
5、保存数据(此处使用try…expect是为剔除完整的图片url)
6、打开数据保存开关(setting.py)如果有第五步的保存数据的必要,此处需要打开
7、开始爬取之路
在终端键入scrapy crawl xhwang 本地目录出现如下数据(截取部分)校花还看得过去,这校草嘛除了李易峰其他都没见过o(* ̄︶ ̄*)o