Scrapy使用Pipeline写入MongoDB

  1. pipelines.py中写入MongoDBPipeline,代码如下:
from scrapy import Item
import pymongo
class MongoDBPipeline(object):
    """
    将item写入MongoDB
    """

    @classmethod
    def from_crawler(cls, crawler):
        cls.DB_URL = crawler.settings.get('MONGO_DB_URI', 'mongodb://localhost:27017')
        cls.DB_NAME = crawler.settings.get('MONGO_DB_NAME', 'scrapy_data')
        return cls()

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.DB_URL)
        self.db = self.client[self.DB_NAME]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        collection = self.db[spider.name]
        post = dict(item) if isinstance(item, Item) else item
        collection.insert_one(post)
        return item
  • 增加类方法from_crawler(cls, crawler),替代在类属性中定义DB_URL和DB_NAME。
  • 如果一个Item Pipeline定义了from_cwawler方法,Scrapy就会调用该方法来创建Item Pipeline对象,该方法有两个参数
    • ​cls Item Pipeline类的对象(这里为MongoDBPipeline类对象)
    • ​crawler Crawler是Scrapy中的一个核心对象,可以通过crawler的settings属性访问该配置文件。
  • 在from_crawler方法中,读取配置文件中的MONGO_DB_URL和MONGO_DB_NAME(不存在则使用默认值),赋给cls的属性,即MongoDBPipeline类属性。
  • 在Spider整个爬取过程中,数据库的连接和关闭操作只需要进行一次,应在开始处理数据之前连接数据库,并在处理完所有数据之后关闭数据库。因此实现以下两个方法(在Scrapy打开和关闭时被调用):
    • ​open_spider(spider)
    • ​close_spider(spider)
      分别在open_spider和close_spider方法中实现数据库的连接与关闭。
  • 在process_item中实现MongoDB数据库的写入操作,使用self.db和spider.name获取一个集合(collection),然后将数据插入该集合,集合对象的insert_one方法需传入一个字典对象(不能传入Item对象),因此在调用前先对item的类型进行判断,如果item是Item对象,就将其转换为字典。
  1. 在配置文件settings.py中对所要使用的数据库进行设置:
MONGO_DB_URI = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'scrapy_data'
  1. 运行爬虫查看。

若没有MongoDB,可查看此文章:https://www.jianshu.com/p/1ab7f03f4e5a
运行Docker命令进入MongoDB:

docker exec -it mongo_db mongo
>use scrapy_data
>db.books.count()
1000
>db.books.find()
...

即可查看数据库中的结果

    原文作者:MR_ChanHwang
    原文地址: https://www.jianshu.com/p/3a3da0272262
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞