056 Python语法之MongoDB数据库

MongoDB的介绍

  1. MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统
  2. 在高负载的情况下,添加更多的节点,可以保证服务器性能
  3. MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案
  4. MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组

MongoDB一些命令

  1. show dbs:显示所有数据库
  2. db:显示当前数据库
  3. use 数据库:切换(创建)操作的数据库
  4. 数据库.数据表.insert({…}):插入一条数据
  5. admin数据库不能操作
  6. 可以存储集合(类似字典)
  7. 拥有很多数据类型
  8. db.dropDatabase():删除当前的数据库
  9. show tables:显示当前数据库的数据表
  10. 默认端口:27017

命令行进入mongoDB数据库

  1. cd C:\Program Files\MongoDB\Server\3.4\bin
  2. mongo.exe

MongoDB基本概念

SQL术语/概念MongoDB术语/概念解释/说明
databasedatabase数据库
tablecollection数据库表/集合
rowdocument数据记录行/文档
columnfield数据字段/域
indexindex索引
table joins表连接,MongoDB不支持
primary keyprimary key主键,MongoDB自动将_id字段设置为主键

文档(行)

RDBMS 与 MongoDB

RDBMSMongoDB
数据库数据库
表格集合
文档
字段
表联合嵌入文档
主键主键 (MongoDB 提供了 key 为 _id )
数据库服务和客户端
Mysqld/Oraclemongod
mysql/sqlplusmongo

文档需要注意的点

  1. 文档中的键/值对是有序的。
  2. 文档中的值不仅可以是在双引号里面的字符串,还可以是其他几种数据类型(甚至可以是整个嵌入的文档)。
  3. MongoDB区分类型和大小写。
  4. MongoDB的文档不能有重复的键。
  5. 文档的键是字符串。除了少数例外情况,键可以使用任意UTF-8字符。

文档键命名规范

  1. 键不能含有\0 (空字符)。这个字符用来表示键的结尾。
  2. .和$有特别的意义,只有在特定环境下才能使用。
  3. 以下划线”_”开头的键是保留的(不是严格要求的)。

集合(表)

集合(表)命名规范

  1. 集合名不能是空字符串””。
  2. 集合名不能含有\0字符(空字符),这个字符表示集合名的结尾。
  3. 集合名不能以”system.”开头,这是为系统集合保留的前缀。
  4. 用户创建的集合名字不能含有保留字符。有些驱动程序的确支持在集合名里面包含,这是因为某些系统生成的集合中包含该字符。
  5. 除非你要访问这种系统创建的集合,否则千万不要在名字里出现$

固定大小的集合(capped collections)

  1. Capped collections 就是固定大小的collection。
  2. 它有很高的性能以及队列过期的特性(过期按照插入的顺序). 有点和 “RRD” 概念类似。
  3. Capped collections是高性能自动的维护对象的插入顺序。它非常适合类似记录日志的功能 和标准的collection不同,你必须要显式的创建一个capped collection, 指定一个collection的大小,单位是字节。
  4. collection的数据存储空间值提前分配的。
    要注意的是指定的存储大小包含了数据库的头信息。
    在capped collection中,你能添加新的对象。
    能进行更新,然而,对象不会增加存储空间。如果增加,更新就会失败 。
    数据库不允许进行删除。使用drop()方法删除collection所有的行。
    注意: 删除之后,你必须显式的重新创建这个collection。
    在32bit机器中,capped collection最大存储为1e9( 1X109)个字节。

元数据

集合命名空间描述
dbname.system.namespaces列出所有名字空间。
dbname.system.indexes列出所有索引。
dbname.system.profile包含数据库概要(profile)信息。
dbname.system.users列出所有可访问数据库的用户。
dbname.local.sources包含复制对端(slave)的服务器信息和状态。

元数据介绍

  1. 数据库的信息是存储在集合中。它们使用了系统的命名空间:dbname.system.*
  2. 对于修改系统集合中的对象有如下限制。
  3. 在{{system.indexes}}插入数据,可以创建索引。但除此之外该表信息是不可变的(特殊的drop index命令将自动更新相关信息)。
  4. {{system.users}}是可修改的。 {{system.profile}}是可删除的。

MongoDB数据类型

数据类型描述
String字符串。存储数据常用的数据类型。在 MongoDB 中,UTF-8 编码的字符串才是合法的。
Integer整型数值。用于存储数值。根据你所采用的服务器,可分为 32 位或 64 位。
Boolean布尔值。用于存储布尔值(真/假)。
Double双精度浮点值。用于存储浮点值。
Min/Max keys将一个值与 BSON(二进制的 JSON)元素的最低值和最高值相对比。
Arrays用于将数组或列表或多个值存储为一个键。
Timestamp时间戳。记录文档修改或添加的具体时间。
Object用于内嵌文档。
Null用于创建空值。
Symbol符号。该数据类型基本上等同于字符串类型,但不同的是,它一般用于采用特殊符号类型的语言。
Date日期时间。用 UNIX 时间格式来存储当前日期或时间。你可以指定自己的日期时间:创建 Date 对象,传入年月日信息。
Object ID对象 ID。用于创建文档的 ID。
Binary Data二进制数据。用于存储二进制数据。
Code代码类型。用于在文档中存储 JavaScript 代码。
Regular expression正则表达式类型。用于存储正则表达式。

创建数据库

  1. use DATABASE_NAME:如果数据库不存在,则创建数据库,否则切换到指定数据库
  2. db:查看当前操作的数据库
  3. show dbs:查看所有数据库
  4. db.runoob.insert({“name”:”Luo”}):插入数据

删除数据库

  1. db.dropDatabase():删除数据库

删除集合(表)

  1. db.COLLECTION_NAME.drop():例:db.user.drop():返回true/false

插入文档(数据)

  1. db.COLLECTION.insert(document):COLLECTION:数据表 document:数据(json)
  2. db.COLLECTION.save(document):COLLECTION:数据表 document:数据(json)
  3. document可先定义:document=({user:”Luo”,age:23});
  4. db.user.insertOne({user:”hahahaha”,age:233}):插入一条
  5. db.user.insertMany([{user:”hahahaha”,age:233},{user:”hehehehe”,age:322}]):一次性插入多条

更新文档(数据)

更新模板与实例

db.collection.update(
   <query>,     # 查询条件,必须有
   <update>,    # 更新的数据
   {
     upsert: <boolean>,
     multi: <boolean>,  # 是否替换多条数据
     writeConcern: <document>
   }
)
# 替换查找到的第一个
db.user.update(
    {"user":"hahahaha"},
    {$set:{"user":"wangge"}}
)
# 替换多个
db.user.update(
    {"user":"hahahaha"},
    {$set:{"user":"wangge"}},
    {multi:true}
)
只更新第一条记录:
db.col.update( { "count" : { $gt : 1 } } , { $set : { "test2" : "OK"} } );
全部更新:
db.col.update( { "count" : { $gt : 3 } } , { $set : { "test2" : "OK"} },false,true );
只添加第一条:
db.col.update( { "count" : { $gt : 4 } } , { $set : { "test5" : "OK"} },true,false );
全部添加加进去:
db.col.update( { "count" : { $gt : 5 } } , { $set : { "test5" : "OK"} },true,true );
全部更新:
db.col.update( { "count" : { $gt : 15 } } , { $inc : { "count" : 1} },false,true );
只更新第一条记录:
db.col.update( { "count" : { $gt : 10 } } , { $inc : { "count" : 1} },false,false );

更新文档参数介绍

  1. query : update的查询条件,类似sql update查询内where后面的。
  2. update : update的对象和一些更新的操作符(如$,$inc…)等,也可以理解为sql update查询内set后面的
  3. upsert : 可选,这个参数的意思是,如果不存在update的记录,是否插入objNew,true为插入,默认是false,不插入。
  4. multi : 可选,mongodb 默认是false,只更新找到的第一条记录,如果这个参数为true,就把按条件查出来多条记录全部更新。
  5. writeConcern :可选,抛出异常的级别。

删除文档

删除文档模板与实例

db.collection.remove(
   <query>,
   {
     justOne: <boolean>,
     writeConcern: <document>
   }
)

query:(可选)删除的文档的条件。
justOne:(可选)如果设为 true 或 1,则只删除一个文档,不写默认删除所有匹配的数据
writeConcern :(可选)抛出异常的级别
db.collection.remove(DELETION_CRITERIA,1)  # 删除查询到的第一条数据

删除所有数据

db.collection.remove({})

查看文档(数据)

  1. db.collection.find().pretty():格式化查看
  2. db.collection.findOne():查看一条,这个不需要加 pretty

查看文档模板与实例

db.collection.find(query, projection)
query :可选,使用查询操作符指定查询条件
projection :可选,使用投影操作符指定返回的键。查询时返回文档中所有键值, 只需省略该参数即可(默认省略)
db.col.find().pretty()  # 格式化查看

查询条件对比

操作格式范例RDBMS中的类似语句
等于{<key>:<value>}db.col.find({“by”:”菜鸟教程”}).pretty()where by = ‘菜鸟教程’
小于{<key>:{$lt:<value>}}db.col.find({“likes”:{$lt:50}}).pretty()where likes < 50
小于或等于{<key>:{$lte:<value>}}db.col.find({“likes”:{$lte:50}}).pretty()where likes <= 50
大于{<key>:{$gt:<value>}}db.col.find({“likes”:{$gt:50}}).pretty()where likes > 50
大于或等于{<key>:{$gte:<value>}}db.col.find({“likes”:{$gte:50}}).pretty()where likes >= 50
不等于{<key>:{$ne:<value>}}db.col.find({“likes”:{$ne:50}}).pretty()where likes != 50

AND 条件

db.collection.find({key1:value1, key2:value2}).pretty()
key1 和 key2 联合查询:两个条件都必须满足

OR 条件(记得用中括号)

db.col.find(
   {
      $or: [
         {key1: value1}, {key2:value2}
      ]
   }
).pretty()
key1 和 key2 联合查询:只要有一个满足就行

AND 和 OR 联合使用

db.col.find(
    {
        "likes": {$gt:50}, 
        $or: [
            {"by": "菜鸟教程"},
            {"title": "MongoDB 教程"}
        ]
    }
).pretty()
db.user.remove(
    {
        "user":"Luo",
        $or:[
            {"age":23},
            {"user":"hehehehe"}
        ]
    }
).pretty()

条件操作符

  1. (>) 大于 – $gt
  2. (<) 小于 – $lt
  3. (>=) 大于等于 – $gte
  4. (<= ) 小于等于 – $lte

条件查询模板

db.user.find({age:{$lte:10}}).pretty()

使用 (<) 和 (>) 查询 – $lt 和 $gt

db.user.find(
    {
        age:{
            $gte:10,
            $lte:100
        }
    }
).pretty()

$type 操作符

描述

类型数字备注
Double1
String2
Object3
Array4
Binary data5
Undefined6已废弃。
Object id7
Boolean8
Date9
Null10
Regular Expression11
JavaScript13
Symbol14
JavaScript (with scope)15
32-bit integer16
Timestamp17
64-bit integer18
Min key255Query with -1.
Max key127

查询使用

获取 "col" 集合中 title 为 String 的数据
db.col.find({"title" : {$type : 2}})

Limit与Skip方法

  1. db.col.find().limit(NUMBER) # 限制查询多少条
  2. db.COLLECTION_NAME.find().limit(NUMBER).skip(NUMBER) # 跳过的记录条数

sort()方法

  1. db.COLLECTION_NAME.find().sort({KEY:1}) # 1:升序 2:降序

索引(暂时不懂)

  1. db.COLLECTION_NAME.ensureIndex({KEY:1})
  2. db.values.ensureIndex({key1: value1, key2: value2}, {background: true})

索引可选参数

ParameterTypeDescription
backgroundBoolean建索引过程会阻塞其它数据库操作,background可指定以后台方式创建索引,即增加 “background” 可选参数。 “background” 默认值为false。
uniqueBoolean建立的索引是否唯一。指定为true创建唯一索引。默认值为false.
namestring 索引的名称。如果未指定,MongoDB的通过连接索引的字段名和排序顺序生成一个索引名称。
dropDupsBoolean在建立唯一索引时是否删除重复记录,指定 true 创建唯一索引。默认值为 false.
sparseBoolean对文档中不存在的字段数据不启用索引;这个参数需要特别注意,如果设置为true的话,在索引字段中不会查询出不包含对应字段的文档. 默认值为 false.
expireAfterSecondsinteger指定一个以秒为单位的数值,完成 TTL设定,设定集合的生存时间
vindex version 索引的版本号,默认的索引版本取决于mongod创建索引时运行的版本
weightsdocument 索引权重值,数值在 1 到 99,999 之间,表示该索引相对于其他索引字段的得分权重
default_languagestring对于文本索引,该参数决定了停用词及词干和词器的规则的列表.默认为英语
language_overridestring对于文本索引,该参数指定了包含在文档中的字段名,语言覆盖默认的language,默认值为 language

聚合

db.mycol.aggregate(
    [
        {
            $group : {_id : "$by_user", num_tutorial : {$sum : 1}}
        }
    ]
)

聚合表达式

表达式描述实例
$sum计算总和db.mycol.aggregate([{$group : {_id : “$by_user”, num_tutorial : {$sum : “$likes”}}}])
$avg计算平均值db.mycol.aggregate([{$group : {_id : “$by_user”, num_tutorial : {$avg : “$likes”}}}])
$min获取集合中所有文档对应值得最小值。db.mycol.aggregate([{$group : {_id : “$by_user”, num_tutorial : {$min : “$likes”}}}])
$max获取集合中所有文档对应值得最大值。db.mycol.aggregate([{$group : {_id : “$by_user”, num_tutorial : {$max : “$likes”}}}])
$push在结果文档中插入值到一个数组中。db.mycol.aggregate([{$group : {_id : “$by_user”, url : {$push: “$url”}}}])
$addToSet在结果文档中插入值到一个数组中,但不创建副本。db.mycol.aggregate([{$group : {_id : “$by_user”, url : {$addToSet : “$url”}}}])
$first根据资源文档的排序获取第一个文档数据。db.mycol.aggregate([{$group : {_id : “$by_user”, first_url : {$first : “$url”}}}])
$last根据资源文档的排序获取最后一个文档数据db.mycol.aggregate([{$group : {_id : “$by_user”, last_url : {$last : “$url”}}}])

管道的概念

  1. $project:修改输入文档的结构。可以用来重命名、增加或删除域,也可以用于创建计算结果以及嵌套文档。
  2. $match:用于过滤数据,只输出符合条件的文档。$match使用MongoDB的标准查询操作。
  3. $limit:用来限制MongoDB聚合管道返回的文档数。
  4. $skip:在聚合管道中跳过指定数量的文档,并返回余下的文档。
  5. $unwind:将文档中的某一个数组类型字段拆分成多条,每条包含数组中的一个值。
  6. $group:将集合中的文档分组,可用于统计结果。
  7. $sort:将输入文档排序后输出。
  8. $geoNear:输出接近某一地理位置的有序文档。

管道例子

match之后的结果往group内进行筛选运算,key非0显示该字段
db.articles.aggregate(
    [
        { 
            $match : { 
                score : { $gt : 70, $lte : 90 } # 匹配条件
            }
        },
        { 
            $group: {
                _id: null,  # 0 或者null为去除_id
                count: {
                    $sum: 1
                } 
            }
        }
    ]
);

综合案例

# 插入三条数据
db.user.insert({title: "MongoDB Overview", user: "Luo",likes: 100})

db.user.insert({title: "MongoDB Overview", user: "wangge",likes: 50})

db.user.insert({title: "MongoDB", user: "wangge",likes: 50})

db.user.insert({title: "MongoDB", user: "wangge",likes: 49})


# 使用user分组,article_count名字可以随便写,sum计算求和
db.user.aggregate([{$group:{_id:"$user",article_count:{$sum:1}}}])

---------结果----------
{ "_id" : "wangge", "article_count" : 2 }
{ "_id" : "Luo", "article_count" : 1 }


# 求$likes的平均值
db.user.aggregate([{$group:{_id:"$user",article_count:{$avg:"$likes"}}}])

---------结果----------
{ "_id" : "wangge", "article_count" : 50 }
{ "_id" : "Luo", "article_count" : 100 }


# 求likes的最大值
db.user.aggregate([{$group:{_id:"$user",article_count:{$max:"$likes"}}}])

---------结果----------
{ "_id" : "wangge", "article_count" : 50 }
{ "_id" : "Luo", "article_count" : 100 }


# 将该值的返回值都当做一个数组返回
db.user.aggregate([{$group:{_id:"$user",article_count:{$push:"$likes"}}}])

---------结果----------
{ "_id" : "wangge", "article_count" : [ 50, 50 ] }
{ "_id" : "Luo", "article_count" : [ 100 ] }


# 去重复,然后将返回值都当做一个数组返回
db.user.aggregate([{$group:{_id:"$user",article_count:{$addToSet:"$likes"}}}])

---------结果----------
{ "_id" : "wangge", "article_count" : [ 49, 50 ] }
{ "_id" : "Luo", "article_count" : [ 100 ] }


# 拿到数据的第一个
db.user.aggregate([{$group:{_id:"$user",article_count:{$first:"$likes"}}}])

---------结果----------
{ "_id" : "wangge", "article_count" : 50 }
{ "_id" : "Luo", "article_count" : 100 }


# 拿到数据的最后一个
db.user.aggregate([{$group:{_id:"$user",article_count:{$last:"$likes"}}}])

---------结果----------
{ "_id" : "wangge", "article_count" : 49 }
{ "_id" : "Luo", "article_count" : 100 }


# $match与$group联合查询
db.user.aggregate([{$match:{likes:{$gt:49,$lt:1000}}},{$group:{_id:"$user",article_count:{$last:"$likes"}}}])

---------结果----------
{ "_id" : "wangge", "article_count" : 50 }
{ "_id" : "Luo", "article_count" : 100 }


# $skip无返回结果,跳过了两条数据 $group $match $push
db.user.aggregate([{$match:{likes:{$gt:48,$lt:1000}}},{$group:{_id:"$user",article_count:{$push:"$likes"}}},{$skip:2}])


# 对结果进行排序likes后面为1则升序,-1则降序 $match $sort
db.user.aggregate([{$match:{likes:{$gt:48,$lt:1000}}},{$sort:{"likes":1}}])

---------结果----------
{"_id":ObjectId("598bf5714c30a699eda1ff0d"), "title" : "MongoDB", "user" : "wangge", "likes" : 49 }

{ "_id" : ObjectId("598bd7854c30a699eda1ff0b"), "title" : "MongoDB Overview", "user" : "wangge", "likes" : 50 }

{ "_id" : ObjectId("598bd78b4c30a699eda1ff0c"), "title" : "MongoDB", "user" : "wangge", "likes" : 50 }

{ "_id" : ObjectId("598bd7764c30a699eda1ff0a"), "title" : "MongoDB Overview", "user" : "Luo", "likes" : 100 }


# 先匹配过滤,然后排序,最后过滤一些数据字段 $project $sort
db.user.aggregate([{$match:{likes:{$gt:48,$lt:1000}}},{$sort:{"likes":1}},{$project:{_id:0,title:1,user:1,likes:1}}])

---------结果----------
{ "title" : "MongoDB", "user" : "wangge", "likes" : 49 }
{ "title" : "MongoDB Overview", "user" : "wangge", "likes" : 50 }
{ "title" : "MongoDB", "user" : "wangge", "likes" : 50 }
{ "title" : "MongoDB Overview", "user" : "Luo", "likes" : 100 }


# 跳过数据 $skip
db.user.aggregate([{$match:{likes:{$gt:48,$lt:1000}}},{$sort:{"likes":1}},{$project:{_id:0,title:1,user:1,likes:1}},{$skip:1}])

---------结果----------
{ "title" : "MongoDB Overview", "user" : "wangge", "likes" : 50 }
{ "title" : "MongoDB", "user" : "wangge", "likes" : 50 }
{ "title" : "MongoDB Overview", "user" : "Luo", "likes" : 100 }


# 限制输出数量 $limit
db.user.aggregate([{$match:{likes:{$gt:48,$lt:1000}}},{$sort:{"likes":1}},{$project:{_id:0,title:1,user:1,likes:1}},{$limit:1}])

---------结果----------
{ "title" : "MongoDB", "user" : "wangge", "likes" : 49 }


# 插入一条数据
db.user.insert({item:"ABCD",size:["S","M","L"]})
# 将文档中的某一个数组类型字段拆分成多条,每条包含数组中的一个值 $unwind
db.user.aggregate([{$unwind:"$size"}])

---------结果----------
{"_id" : ObjectId("598c00824c30a699eda1ff0e"),"item": "ABCD", "size" : "S" }
{"_id" : ObjectId("598c00824c30a699eda1ff0e"),"item": "ABCD", "size" : "M" }
{"_id" : ObjectId("598c00824c30a699eda1ff0e"),"item": "ABCD", "size" : "L" }


拖库(暂未实现)

  1. cmd用管理员权限进入MongoDB\bin目录
  2. 执行:mongodump -h 127.0.0.1:27017 test -o C:\Users\Administrator\Desktop

安装pymongo

  1. pip install pymongo-3.4.0-cp36-cp36m-win_amd64.whl

Python实现Mongo操作

# Author:Luo
import pymongo

def get_client():
    client = pymongo.MongoClient(host="127.0.0.1",port=27017)
    return client

client = get_client()   # 获取mongo客户端
db = client["test"] # 拿到test数据库
print(db.collection_names())    #打印所有表名
coll = db["user"]   # 拿到user表

# coll.insert({"name":"hello","age":34})     # 插入数据
# coll.insert([{"name":"hello2","age":34},{"name":"hello3","age":30}])     # 插入多条数据

for line in coll.find():    # 取出所有数据
    print(line)

# print(coll.find_one({"age":30}))    # 找出第一个age为30的数据

# print(coll.find_one_and_delete({"age":30})) # 找到并删除

# print(coll.find_one_and_update({"age":34},{"$set":{"name":"哇哈哈"}}))   # 返回修改之前的那条数据
    原文作者:Luo_Luo
    原文地址: https://www.jianshu.com/p/d3b711344c84
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞