- 在
pipelines.py
中写入MongoDBPipeline
,代码如下:
from scrapy import Item
import pymongo
class MongoDBPipeline(object):
"""
将item写入MongoDB
"""
@classmethod
def from_crawler(cls, crawler):
cls.DB_URL = crawler.settings.get('MONGO_DB_URI', 'mongodb://localhost:27017')
cls.DB_NAME = crawler.settings.get('MONGO_DB_NAME', 'scrapy_data')
return cls()
def open_spider(self, spider):
self.client = pymongo.MongoClient(self.DB_URL)
self.db = self.client[self.DB_NAME]
def close_spider(self, spider):
self.client.close()
def process_item(self, item, spider):
collection = self.db[spider.name]
post = dict(item) if isinstance(item, Item) else item
collection.insert_one(post)
return item
- 增加类方法from_crawler(cls, crawler),替代在类属性中定义DB_URL和DB_NAME。
- 如果一个Item Pipeline定义了from_cwawler方法,Scrapy就会调用该方法来创建Item Pipeline对象,该方法有两个参数
- cls Item Pipeline类的对象(这里为MongoDBPipeline类对象)
- crawler Crawler是Scrapy中的一个核心对象,可以通过crawler的settings属性访问该配置文件。
- 在from_crawler方法中,读取配置文件中的MONGO_DB_URL和MONGO_DB_NAME(不存在则使用默认值),赋给cls的属性,即MongoDBPipeline类属性。
- 在Spider整个爬取过程中,数据库的连接和关闭操作只需要进行一次,应在开始处理数据之前连接数据库,并在处理完所有数据之后关闭数据库。因此实现以下两个方法(在Scrapy打开和关闭时被调用):
- open_spider(spider)
- close_spider(spider)
分别在open_spider和close_spider方法中实现数据库的连接与关闭。
- 在process_item中实现MongoDB数据库的写入操作,使用self.db和spider.name获取一个集合(collection),然后将数据插入该集合,集合对象的insert_one方法需传入一个字典对象(不能传入Item对象),因此在调用前先对item的类型进行判断,如果item是Item对象,就将其转换为字典。
- 在配置文件
settings.py
中对所要使用的数据库进行设置:
MONGO_DB_URI = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'scrapy_data'
- 运行爬虫查看。
若没有MongoDB,可查看此文章:https://www.jianshu.com/p/1ab7f03f4e5a
运行Docker
命令进入MongoDB:
docker exec -it mongo_db mongo
>use scrapy_data
>db.books.count()
1000
>db.books.find()
...
即可查看数据库中的结果