参考Scrapy官方文档: https://scrapy-chs.readthedocs.io/zh_CN/0.24/
安装scrapy 在其他文章中已经说过,略。
参考的source: https://github.com/scrapy/quotesbot
已经上传的source code: https://github.com/xieheng0915/quotesbot-scrapy
几个体会:
- 最好用genspider创建spider的application, 手动创建似乎没有运行成功
scrapy genspider example example.com
- 如果出现twisted DNSLookup error,最好用scrapy shell [url] 查看一下,因为有可能网站地址出错,不容易察觉。尤其要注意网站是否禁止爬虫,是否无法access,是否有效等等。
可以改一下settings.py的配置,增加一些初始爬的delay时间,如果担心网络的寸断的话,并增加retry的次数。
3)结果可以在csv, json等形式的文件输出,也可以连接数据库。
后面要练习和解决的问题:
1)不同类型的网站,对于爬虫条目的分析,数据处理(其实很麻烦的)
2)数据库存放
3)搭建爬虫server,定期进行爬虫
4)对于image文件,或者pdf等文件的下载
5)差分爬虫和下载
6)分布式爬虫server (optional. 暂时可以不考虑做)
本来想弃用简书了,不过作为一个memo 的作用,记录一下中间过程,后面爬虫弄熟悉了,再完整写一下文档
memo: git本地仓库上传到github上:https://blog.csdn.net/duxu24/article/details/70183503