爬虫框架scrapy和数据库MongoDB的结合使用（二）实战

2019年6月11日 194次阅读来源: JRlu

目标抓取盗墓笔记小说网站上《盗墓笔记》这本书的书名、章节名、章节url，并存放到MongoDB中

1.Scrapy中settings.py的设置（先scrapy startproject novelspider）

在settings.py中配置MongoDB的IP地址、端口号、数据记录名称，并通过settings.py使pipelines.py生效：

《爬虫框架scrapy和数据库MongoDB的结合使用（二）实战》

2.Scrapy中item.py设置

《爬虫框架scrapy和数据库MongoDB的结合使用（二）实战》

3.Scarpy中pipelines.py的设置

在pipelines中可以像普通的python文件操作MongoDB一样编写代码出来需要保持到MongoDB中的数据，然而不同的是这里的数据来自items，这样做的好处是将数据抓取和处理分开。

《爬虫框架scrapy和数据库MongoDB的结合使用（二）实战》

在通过settings导入MONGODB字典时竟然报错了~~~~（玛德），所示格式错误，不明所以，故mongodb的设置直接写到pipelines中。把spider抓取到的数据存放到item实例中，再通过dict字典化insert到mongodb中。

4.spider文件下新建novspider.py

《爬虫框架scrapy和数据库MongoDB的结合使用（二）实战》

5.运行爬虫

有两种方法运行，一种是直接在cmd下输入 scrapy crawl xxxspider，当然你得先cd到xxxspider文件夹下；

另一种是在xxxspider文件夹下（和scrapy.cfg同一个目录下）建立一个mian.py脚本，其内容为：

《爬虫框架scrapy和数据库MongoDB的结合使用（二）实战》

6.运行结果

刷新mongodb，我存放到mydb3中：

《爬虫框架scrapy和数据库MongoDB的结合使用（二）实战》

8.源码

我分享到了百度云盘：链接：http://pan.baidu.com/s/1dFjxViD 密码：a8m7

可能会失效，有需要的M我~~~~ 谢谢大家支持,荆轲刺秦王！

    原文作者：JRlu
    原文地址: https://www.jianshu.com/p/4df869b32cab
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。