一个简单的scrapy 爬虫小程序

参考Scrapy官方文档: https://scrapy-chs.readthedocs.io/zh_CN/0.24/
安装scrapy 在其他文章中已经说过,略。
参考的source: https://github.com/scrapy/quotesbot
已经上传的source code: https://github.com/xieheng0915/quotesbot-scrapy

几个体会:

  1. 最好用genspider创建spider的application, 手动创建似乎没有运行成功
   scrapy genspider example example.com
  1. 如果出现twisted DNSLookup error,最好用scrapy shell [url] 查看一下,因为有可能网站地址出错,不容易察觉。尤其要注意网站是否禁止爬虫,是否无法access,是否有效等等。
    可以改一下settings.py的配置,增加一些初始爬的delay时间,如果担心网络的寸断的话,并增加retry的次数。

3)结果可以在csv, json等形式的文件输出,也可以连接数据库。

后面要练习和解决的问题:
1)不同类型的网站,对于爬虫条目的分析,数据处理(其实很麻烦的)
2)数据库存放
3)搭建爬虫server,定期进行爬虫
4)对于image文件,或者pdf等文件的下载
5)差分爬虫和下载
6)分布式爬虫server (optional. 暂时可以不考虑做)

本来想弃用简书了,不过作为一个memo 的作用,记录一下中间过程,后面爬虫弄熟悉了,再完整写一下文档

memo: git本地仓库上传到github上:https://blog.csdn.net/duxu24/article/details/70183503

    原文作者:芒鞋儿
    原文地址: https://www.jianshu.com/p/a197b01dbaf1
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞