基本概念
- 文档是
MongoDB
中数据的基本单元,非常类似于关系型数据库中的行,但更具有表现力; - 集合
Collection
可以看作是一个动态模式(Dynamic Schema
)的表; -
MongoDB
的一个实例可以拥有多个相互独立的数据库 (Database
),每一个数据库都拥有自己的集合; - 每一个文档都有一个特殊的键
_id
,这个键在文档所属的集合中是唯一的; -
MongoDB
自带了一个简单但功能强大的JavaScript Shell
,可用于管理MongoDB
的实例或数据操作。
文档
文档是 MongoDB
的核心概念,文档就是键值对的有序集,下面的即是以 JavaScript
语言表现的一份文档:
{
"greeting" : "Hello, world!"
}
在绝大多数情况下,文档的键是字符串(除了少数例外),键可以使用任意的UTF-8 字符。
- 键不能含有
\0
(空字符),这个字符用于表示键的结尾; -
.
和$
具有特殊意义,只能在特定环境下使用,通常这两个字符是被保留的,如果使用不当的话,驱动程序会有提示。
MongoDB 不但区分类型,还区分大小写,下面的两个文档是不同的:
{
"foo" : "bar"
}
与:
{
"Foo" : "bar"
}
另一个重要的事项是, MongoDB 的文档不能有重复的键,例如:
{
"greeting" : "Hello, world!",
"greeting" : "Hello, MongoDB!"
}
文档中的键/值对是有序的:
{
"x" : 1,
"y" : 2
}
与:
{
"y" : 2,
"x" : 1
}
是不同的。
集合
集合就是一组文档。如果将 MongoDB 中的一个文档比喻为关系型数据库中的一行,那么一个集合就相当于一张表。
动态模式
集合是动态模式的,这意味着一个集合里面的文档可是各式各样的,如何下面两个文档就可以出现一个集合里面:
{
"greeting" : "Hello, world!"
},
{
"foo" : 5
}
上面的两个文档,除了值不同外,键也不同,但是不建议像上面那样做,同样的文档,我们一般还是放在一个特定的集合里面更好,不管是速度、效率还是结构上来讲,都要更好。
命名
集合使用名称进行标识,集合名称可以是满足下列条件的任意 UTF-8 字符串:
- 集合名不能是空字符串(
""
); - 集合名称不能包含
\0
字符(空字符),这个字符表示集合名的结束; - 集合名不能以
system.
开头,这是为系统集合保留的前缀,例如:system.users
这个集合保存着数据库的用户信息,而system.namespaces
集合保存着所有数据库集合的信息; - 用户创建的集合不能在集合名中包含保留字符
$
,因为某些系统生成的集合中饮食$
。
子集合
组织集合的一种惯例是使用 .
分隔不同命名空间的了集合,比如一个具有博客功能的应用可能包含两个集合,分别是 blog.posts
和 blog.authors
。
数据库
在 MongoDB 中,多个文档组成集合,而多个集合可以组成数据库,一个 MongoDB 可以承载我个数据库,每个数据库拥有 0 个或者多个集合,每个数据库都有独立的权限,即便是在磁盘上,不同的数据库也放置在不同的文件中。
数据库通过名称来标识,这点与集合类似,数据库名可以是满足以下条件的任意 UTF-8 字符串:
- 不能是空字符串
""
; - 不能含有
/
、\
、.
、"
、*
、<
、>
、:
、|
、?
、$
(一个空格)、\0
(空字符); - 数据库名区分大小写,即使在不区分大小写的文件系统中也是如此,简单起见,所有的数据库均为小写;
- 数据库名最多为64个字节。
在这里我们需要记住一点,数据库名最终会变成文件系统中的文件,而数据库名就是相应的文件名,这是数据库名有如此多限制的原因。
另外,有一些数据库名是保留的,可以直接访问这些有特殊语言的数据库,如下:
admin:
从身份验证的角度来讲,这是
root
数据库,如果有一个用户添加到这个数据库,则这个用户将拥有所有数据库的权限;local
这个数据库永远都不可以复制,且一台服务器上所有的本地集合都可以存储在这个数据训中;
config
MongoDB 用户分片设置时,分片信息会存储在
config
数据库中。
把数据库名称添加到集合名称前,得到集合的完全限定名,即 命名空间 namespace
,命名空间的长度不得超过 121 字节,而实际应用中,应该小于100字节。
启动 MongoDB
通常,MongoD 作为网络服务器来运行,客户端可连接到该服务器并执行操作。要安装 MongoDB ,可以从官方网站下载相应的适合你系统的版本(http://www.mongodb.org/downloads)。下载完成之后,解压,并把解压之后得到的文件夹复制或者移到至最终你想安装的目录即可。
我将其安装在了 /Users/pantao/Workspace/MongoDB
这个目录,同时,我将 MongoDB
的 bin
目录加入了PATH
变量中:
vi ~/.bash_profile
加入如下一行:
export PATH="/Users/pantao/Workspace/MongoDB/bin:$PATH"
保存之后,运行:
source ~/.bash_profile
这个时候,我就可以直接在任何地方启动 MongoDB
或者进行相关的数据库操作了,使用 mongod
命名启动服务器:
pantaodeMacBook-Pro:MongoDB pantao$ mongod
2015-04-21T10:00:06.302+0800 I STORAGE [initandlisten] exception in initAndListen: 29 Data directory /data/db not found., terminating
2015-04-21T10:00:06.302+0800 I CONTROL [initandlisten] dbexit: rc: 100
出现上面这个错误是因为 /data/db
目录不存在,若启动时,不指定任何参数, MongoDB 会默认使用 /data/db
目录存储数据,我们可以使用 --dbpath
来指定其它的路径,比如我使用的是下面这样的命令启动的:
mongod --dbpath /Users/pantao/Workspace/MongoDB/db
上面这个是我的工作目录,直接将 MongoDB 的程序和数据库放在一起,我方便学习管理。
MongoDB Shell
MongoDB 自带有 JavaScript Shell ,可以Shell 中使用命令行与 MongoDB 实例交互,Shell非常有用,通过它可以执行管理操作,检查运行实例,亦或是做其它尝试。
运行 shell
使用 mongo
命令启动 shell
:
pantaodeMacBook-Pro:MongoDB pantao$ mongo
MongoDB shell version: 3.0.2
connecting to: test
Welcome to the MongoDB shell.
For interactive help, type "help".
For more comprehensive documentation, see
http://docs.mongodb.org/
Questions? Try the support group
http://groups.google.com/group/mongodb-user
Server has startup warnings:
2015-04-21T10:03:18.997+0800 I CONTROL [initandlisten]
2015-04-21T10:03:18.997+0800 I CONTROL [initandlisten] ** WARNING: soft rlimits too low. Number of files is 256, should be at least 1000
>
启动时, shell
会打印出当前 shell
的版本号,连接到了哪个库以及一些帮助信息等,这是一个功能完备的 JavaScript
解释器,可以运行任意 JavaScript
程序,比如使用 JavaScript
标准库或者定义以及调用 JavaScript 函数等。
MongoDB 客户端
shell
是一个独立的 MongoDB客户端,启动时, shell
会连到 MongoDB 服务器的 test
数据库,并将数据库连接赋值给合局变量 db
,这个变量是通过 shell
访问 MongoDB 的主要入口点,可以使用 db
查看当前指向哪个数据库:
> db
test
除了JavaScript语法外,MongoDB 还提供了一些语法糖,以帮助我们更好的管理数据库,比如:
> use foobar
switched to db foobar
这个时候我们可以看到数据库已经切换到 foobar
数据库了:
> db
foobar
Shell 中的基本操作
在 shell
中查看查看或操作数据,会用到4个基本操作:创建、读取、更新、删除,即 CRUD
操作;
创建
通过 db.createCollection()
函数可以先创建一个集合:
> db.createCollection("blog")
{ "ok" : 1 }
insert
可以将一个文档添加到集合中:
> post = {"title": "这是一篇文章", "content": "这是文章的内容。","date" : new Date()}
{
"title" : "这是一篇文章",
"content" : "这是文章的内容。",
"date" : ISODate("2015-04-21T02:22:52.899Z")
}
这是一个有效的 MongoDB 文档,所以可以用 insert
方法将其保存到集合中。
> db.blog.insert(post)
WriteResult({ "nInserted" : 1 })
接着可以使用 find
方法查找这篇文章:
> db.blog.find()
{ "_id" : ObjectId("5535b574b705494e688e218a"), "title" : "这是一篇文章", "content" : "这是文章的内容。", "date" : ISODate("2015-04-21T02:22:52.899Z") }
可以看到我们的数据都已经完整的保存下来了,同时,MongoDB 还为我们自动生成了一个 _id
参数。
读取
find
与 findOne
方法可以用于查询集合里的文档:
> db.blog.findOne()
{
"_id" : ObjectId("5535b574b705494e688e218a"),
"title" : "这是一篇文章",
"content" : "这是文章的内容。",
"date" : ISODate("2015-04-21T02:22:52.899Z")
}
find
与 findOne
可以接受一个查询文档作为限定条件,使用 find
时,shell
会自动显示最多 20 个匹配的文档,也可以获取更多文档。
更新
使用 update
修改博客文章,它至少接受两个参数,第一个是限定条件,第二个是新文档,比如我们现在要给 post
加上评论列表:
> post.comments = []
[ ]
然后,用新版本的 post
替换标题为 《这是一篇文章》的文章:
> db.blog.update({"title":"这是一篇文章"},post)
WriteResult({ "nMatched" : 1, "nUpserted" : 0, "nModified" : 1 })
> db.blog.findOne()
{
"_id" : ObjectId("5535b574b705494e688e218a"),
"title" : "这是一篇文章",
"content" : "这是文章的内容。",
"date" : ISODate("2015-04-21T02:22:52.899Z"),
"comments" : [ ]
}
可以看到,comments
已经更新到原来的那个 post
中去了。
删除
使用 remove
可以删除集合中的文档,若没有任何限定参数,它将删除集合中的所有数据,也可以像下面这样,删除标题为《这是一篇文章》的文章:
> db.blog.remove({"title":"这是一篇文章"})
WriteResult({ "nRemoved" : 1 })
> db.blog.find()
>
数据类型
基本的数据类型
MongoDB
的文档与 JavaScript
中的对象相近,因而可以认为类似于 JavaScript
中的 JSON
,JSON 是一种简单的数据表示方式,仅有 6种数据类型,分别为 null
、bool
、number
、string
、array
和 object
。
MongoDB在保留 JSON 基本键/值对特性的基础上,添加了其它的一些数据类型:
null
用于表示空值或者不存在的字段:
{
"x" : null
}
bool
布尔型
只有两个值 true
与 false
:
{
"x" : true,
"y" : false
}
number
数值
shell
默认使用 64位浮点型数值,对于整型值,可使用 NumberInt
类或 NumberLong
类:
{
"pi" : 3.14,
"x" : 3,
"ni" : NumberInt("3"),
"nl" : NumberLong("3")
}
string
字符串
UTF-8
类型的字符串都可以表示为字符串类型的数据:
{
"x" : "this is a string.",
"y" : "这是一个NB的字符串"
}
date
日期
日期被存储 为自新纪元以来经过的毫秒数,不存储时区:
{
"x" : new Date()
}
regular expression
正则表达式
在进行查询时,我们可以直接使用正则表达式作为值,语法与 javascript
的相同:
{
"x" : /foobar/i
}
array
数组
数据列表或数据集可以表达为数组:
{
"a" : ["x", "y" , "z"]
}
object id
对象ID
对象ID是一个 12 字节的ID,它是文档的唯一标识:
{
"x" : ObjectId()
}
object id
以以下方式生成:
|0|1|2|3|4|5|6|7|8|9|10|11|
| 时间戳 | 机器|PID| 计数器 |
- 时间戳在前,对于索引效率提高有一定的作用;同时它也带了一定的时间信息,一些驱动可以从 ObjectId 获取这些信息;
- 时间戳与机器码还有 PID 组合在一起,提供了秒级别的唯一性,机器码是机器主机名的散列值(
hash
); - PID确保了同一台主机不同进程产生的 ObjectId 的唯一性,接下来的字节
- 最后的计数器,确保同一台机器同一个进程在同一秒内产生的 ObjectId 是不一样的,一秒钟最多允许每个进程拥有 2563 个不同的ObjectId。
自动生成 _id
若插入文档时,没有提供 _id
键
object
内嵌文档
文档可以嵌套其它文档,被嵌套的文档作为父文档的值:
{
"o" : {
"name" : "child object"
}
}
binary data
二进制数据
任意字节的字符串,它不直直接在 shell
中使用,如果要将非 utf-8
字符保存到数据库中,二进制数据是唯一的实现方式。
javascript
代码
查询和文档中可以包括做生意 JavaScript 代码:
{
"script" : function() { /* code goes here */ }
}
timestamps
时间戳
不同于 Date
类型的时间戳值,它是一个 64位长度的值,它是:
- 前面的 32位为
time_t
值,(Unix 时间戳) - 后32位是一个在给定的时间内的自增值
使用 MongoDB shell
除了像前面那样使用 shell
连接数据库外,我们还可以在连接数据时指定服务器地址、端口号以及数据名等参数,比如:
mongo mongo-db.xingzhewujiang.com:30000/ahaInsight
启动时,可以让 mongo shell
不连接任何的 mongod
,可以通过 --nodb
参数:
mongo --nodb
启动之后,我们可以在需要时执行 new Mongo(hostname)
命令就可以连接到想要连接的 mongod
了:
> conn = new Mongo("host.name:30000")
connection to host.name:30000
> db = conn.getDB("dbname")
dbname
在使用 shell
的过程中,还可以随时使用 help
命令查看帮助:
help
db.help() help on db methods
db.mycoll.help() help on collection methods
sh.help() sharding helpers
rs.help() replica set helpers
help admin administrative help
help connect connecting to a db help
help keys key shortcuts
help misc misc things to know
help mr mapreduce
show dbs show database names
show collections show collections in current database
show users show users in current database
show profile show most recent system.profile entries with time >= 1ms
show logs show the accessible logger names
show log [name] prints out the last segment of log in memory, 'global' is default
use <db_name> set current database
db.foo.find() list objects in collection foo
db.foo.find( { a : 1 } ) list objects in foo where a == 1
it result of the last line evaluated; use to further iterate
DBQuery.shellBatchSize = x set default number of items to display on shell
exit quit the mongo shell
使用 shell 执行脚本
除了交互式的使用 shell
外,我们还可以将命令保存在一个文件中,比如 script.js
,然后使用 mongo
命令直接执行它们,一次可以传入多个文件名,mongo shell
会依次执行传入的脚本,然后退出:
mongo script.js script1.js
如果希望指定主机和端口来运行上面的脚本,还可以这样做:
mongo --quiet host.name:30000/dbname script.js script1.js
--quiet
可以让 mongo shell
不打印 MongoDB shell version...
这样的提示信息。
在交互式的命令行中,还可以使用 load()
函数加载并运行脚本:
> load("script.js")
i am a string printed by script.js
>
知道这个之后,我们可以把一些能用的函数保存到一个文件里面,然后再将他们加载进 shell
交互界面里面来:
创建一个名为 connectTo.js
的文件,内容如下:
javascript
/** * 链接到指定的数据库,然后将 db 指向这个链接 */ var connectTo = function(port, dbname) { if (!port) { port = 27017; } if (!dbname) { dbname = "test" } db = connect("localhost:" + port + "/" + dbname) return db }
然后我们进入 shell
:
bash
> typeof connectTo undefined > load("connectTo.js") true > typeof connectTo function >
我们可以使用脚本让能用的管理和任务自动化,比如,我们想在每一次 shell
启用时,都加载上面定义的那个函数,这个时候我们可以用到一个名为 .mongorc.js
的文件。
在自己的家目录中(不同的系统都不一样),新建一个名为 .mongorc.js
的文件,然后写入下面这些内容:
print("你好,我来自 .mongorc.js 文件")
然后,重新进入 shell
:
mongo
MongoDB shell version: 3.0.2
connecting to: test
你好,我来自 .mongorc.js 文件
>
删除危险的函数
该文件一般用得最多的就是用于删除一些比较危险的 shell
辅助函数,比如删除数据库、索引等,比如下面这样的:
javascript
var no = function() { print("Not no my watch."); } // 禁止删除数据库 db.dropDatabase = DB.prototype.dropDatabase = no; // 禁止删除集合 DBCollection.prototype.drop = no; // 禁止删除索引 DBCollection.prototype.dropIndex = no;
定制提示信息
shell
默认的提示是一个 >
符号,我们可以对该符号进行定制,比如最简单的是,在每一个提示符前面加上一个当前时间,这样我们就可以很容易大概的知道,一些需要长时间执行的操作到底用了多久时间了:
javascript
prompt = function() { return (new Date()) + "> "; }
再一次进入 shell
:
bash
mongo MongoDB shell version: 3.0.2 connecting to: test Tue Apr 21 2015 13:06:40 GMT+0800 (CST)> Tue Apr 21 2015 13:06:43 GMT+0800 (CST)>db test
另一个方便的提示是显示当前正在使用的数据库:
javascript
prompt = function() { if (typeof db == 'undefined') { return '(nodb)>'; } // 检查最后使用的数据库操作 try { db.runCommand({getLastError:1}); } catch (e) { print(e); } return db + "> "; }
再一次进入 shell
:
bash
mongo MongoDB shell version: 3.0.2 connecting to: test test>
更好的编辑工具
shell
对多行编辑很有限,若编辑了多行,突然发现前面有一行有错误,这是不能修改的,但是它提供了一种方法,让你可以在 shell
中很访问的使用外部的第三方编辑器,保存并退出编辑器之后,会对你修改的值进行重新解析,并重新加载回 shell
中,同样使用 .mongorc.js
,在其中加入下面这一行:
EDITOR = "/usr/bin/vim"
然后进入 shell
:编辑一个复杂一点儿的变量:
bash
mongo MongoDB shell version: 3.0.2 connecting to: test > var post = { ... title: "这是一篇文章的内容", ... content: "这是一篇文章的标题", ... author: "潘韬" ... } > post { "title" : "这是一篇文章的内容", "content" : "这是一篇文章的标题", "author" : "潘韬" } > edit post > post { "title" : "这是一篇文章的标题", "content" : "这是一篇文章的内容", "author" : "潘韬" } >
一些变态的集合名称的使用
绝大多数时候,我们可以使用 db.collectionName
这种方式访问一个数据库中的集合,但是也有例外,比如 db.version
就不能访问到名称为 version
的集合,因为 version
是 db
的一个方法名,可以用来显示当前的数据库版本信息。那么我们就得使用其它的方法了,比如:
> db.getCollection("version");
test.version
有些时候,我们的集合里面还可能使用了很多变态的奇怪的名称,比如 &$*%#
,使用 db.&$*%#
是非法的,但是我们却可以使用 db.getCollection("&$*%#")
来获取该集合,同样的,我们还有一种更加直接的方法,就是类似于JavaScript的数组访问语法,像下面这样:
db["&$*%#"].find()