使用Python做大型计算任务时,并且用mongodb做数据储存时,常常面临大量读写数据库的情况。尤其是大量更新任务,由于不能批量操作,使用pymongo同步操作的话,相当耗时。
使用多线程、多进程确实有效,但编写麻烦、消耗系统资源大(pymongo还不允许fork线程中共用连接)。这里主要瓶颈在于IO,使用单线程异步操作就会效果很好。
Motor是一个异步mongodb driver,支持异步读写mongodb。它通常用在基于Tornado的异步web服务器中。
Motor同时支持使用asyncio(Python3.4以上标准库)作为异步模型,使用起来十分方便。
下面是一个对比例子。从某个mongodb集合中,遍历读取所有数据,并update回去。update速度是主要瓶颈。
这里我们事先定义好,数据库位于127.0.0.1:27017,数据库名为testdb,集合名为test。我们处理其中title和content两个较大的字段。
host = '127.0.0.1'
port = 27017
database = 'testdb'
下面是使用pymongo同步处理的例子:
from pymongo import MongoClient
connection = MongoClient(
host,
port
)
db = connection[database]
for doc in db.post.find({}, ['item_id', 'title', 'content']):
db.post.update({'item_id': doc.get('item_id')}, {
'$set': {
'title': doc.get('title'),
'content': doc.get('title')
}
})
以下是使用了asyncio和motor的例子:
import asyncio
from motor.motor_asyncio import AsyncIOMotorClient
connection = AsyncIOMotorClient(
host,
port
)
db = connection[database]
async def run():
async for doc in db.post.find({}, ['item_id', 'title', 'content']):
db.post.update({'item_id': doc.get('item_id')}, {
'$set': {
'title': doc.get('title'),
'content': doc.get('content'),
}
})
asyncio.get_event_loop().run_until_complete(run())
这里测试异步读写速度是同步的200倍左右(实际情况受IO时间影响,不一定是这个比例)。
可见,使用motor+asyncio做快速mongodb读写,方便有效。