一个简单的scrapy 爬虫小程序

2023年3月20日 301次阅读来源: 芒鞋儿

参考Scrapy官方文档： https://scrapy-chs.readthedocs.io/zh_CN/0.24/
安装scrapy 在其他文章中已经说过，略。
参考的source: https://github.com/scrapy/quotesbot
已经上传的source code: https://github.com/xieheng0915/quotesbot-scrapy

几个体会:

   scrapy genspider example example.com

如果出现twisted DNSLookup error,最好用scrapy shell [url] 查看一下，因为有可能网站地址出错，不容易察觉。尤其要注意网站是否禁止爬虫，是否无法access，是否有效等等。
可以改一下settings.py的配置，增加一些初始爬的delay时间，如果担心网络的寸断的话，并增加retry的次数。

3）结果可以在csv, json等形式的文件输出，也可以连接数据库。

后面要练习和解决的问题：
1）不同类型的网站，对于爬虫条目的分析，数据处理（其实很麻烦的）
2）数据库存放
3）搭建爬虫server，定期进行爬虫
4）对于image文件，或者pdf等文件的下载
5）差分爬虫和下载
6）分布式爬虫server (optional. 暂时可以不考虑做)

本来想弃用简书了，不过作为一个memo 的作用，记录一下中间过程，后面爬虫弄熟悉了，再完整写一下文档

memo： git本地仓库上传到github上：https://blog.csdn.net/duxu24/article/details/70183503

    原文作者：芒鞋儿
    原文地址: https://www.jianshu.com/p/a197b01dbaf1
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。