Python异步读写Mongodb(motor+asyncio)

使用Python做大型计算任务时,并且用mongodb做数据储存时,常常面临大量读写数据库的情况。尤其是大量更新任务,由于不能批量操作,使用pymongo同步操作的话,相当耗时。

使用多线程、多进程确实有效,但编写麻烦、消耗系统资源大(pymongo还不允许fork线程中共用连接)。这里主要瓶颈在于IO,使用单线程异步操作就会效果很好。

Motor是一个异步mongodb driver,支持异步读写mongodb。它通常用在基于Tornado的异步web服务器中。
Motor同时支持使用asyncio(Python3.4以上标准库)作为异步模型,使用起来十分方便。

下面是一个对比例子。从某个mongodb集合中,遍历读取所有数据,并update回去。update速度是主要瓶颈。
这里我们事先定义好,数据库位于127.0.0.1:27017,数据库名为testdb,集合名为test。我们处理其中title和content两个较大的字段。

host = '127.0.0.1'
port = 27017
database = 'testdb'

下面是使用pymongo同步处理的例子:

from pymongo import MongoClient

connection = MongoClient(
    host,
    port
)
db = connection[database]

for doc in db.post.find({}, ['item_id', 'title', 'content']):
    db.post.update({'item_id': doc.get('item_id')}, {
        '$set': {
            'title': doc.get('title'),
            'content': doc.get('title')
        }
    })

以下是使用了asyncio和motor的例子:

import asyncio
from motor.motor_asyncio import AsyncIOMotorClient

connection = AsyncIOMotorClient(
    host,
    port
)
db = connection[database]

async def run():
    async for doc in db.post.find({}, ['item_id', 'title', 'content']):
        db.post.update({'item_id': doc.get('item_id')}, {
            '$set': {
                'title': doc.get('title'),
                'content': doc.get('content'),
            }
        })

asyncio.get_event_loop().run_until_complete(run())

这里测试异步读写速度是同步的200倍左右(实际情况受IO时间影响,不一定是这个比例)。

可见,使用motor+asyncio做快速mongodb读写,方便有效。

    原文作者:平仄_pingze
    原文地址: https://www.jianshu.com/p/2e8b79c819fb
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞