上一篇文章:
MongoDB指南—4、MongoDB基础知识-使用MongoDB Shell下一篇文章:
MongoDB指南—6、更新文档
本章会介绍对数据库移入/移出数据的基本操作,具体包含如下操作:
- 向集合添加新文档;
- 从集合里删除文档;
- 更新现有文档;
为这些操作选择合适的安全级别和速度。
3.1 插入并保存文档
插入是向MongoDB中添加数据的基本方法。可以使用insert方法向目标集合插入一个文档:
> db.foo.insert({"bar" : "baz"})
这个操作会给文档自动增加一个”_id”键(要是原来没有的话),然后将其保存到MongoDB中。
3.1.1 批量插入
如果要向集合中插入多个文档,使用批量插入会快一些。使用批量插入,可以将一组文档传递给数据库。
在shell中,可以使用batchInsert函数实现批量插入,它与insert函数非常像,只是它接受的是一个文档数组作为参数:
> db.foo.batchInsert([{"_id" : 0}, {"_id" : 1}, {"_id" : 2}])
> db.foo.find()
{ "_id" : 0 }
{ "_id" : 1 }
{ "_id" : 2 }
一次发送数十、数百乃至数千个文档会明显提高插入的速度。
只有需要将多个文档插入到一个集合时,这种方式才会有用。不能在单次请求中将多个文档批量插入到多个集合中。要是只导入原始数据(例如,从数据feed或者MySQL中导入),可以使用命令行工具,如mongoimport,而不是批量插入。另一方面,可以使用批量插入在将数据存入MongoDB之前对数据做一些小的修整(将日期转换为日期类型,或添加自定义的”_id”),这样批量插入也可用于导入数据。
当前版本的MongoDB能接受的最大消息长度是48 MB,所以在一次批量插入中能插入的文档是有限制的。如果试图插入48 MB以上的数据,多数驱动程序会将这个批量插入请求拆分为多个48 MB的批量插入请求。具体可以查看所使用的驱动程序的相关文档。
如果在执行批量插入的过程中有一个文档插入失败,那么在这个文档之前的所有文档都会成功插入到集合中,而这个文档以及之后的所有文档全部插入失败。
> db.foo.batchInsert([{"_id" : 0}, {"_id" : 1}, {"_id" : 1}, {"_id" : 2}])
只有前两个文档会被插入,因为插入第三个文档时会发生错误:集合中已经存在一个_id为1的文档,不能重复插入。
在批量插入中遇到错误时,如果希望batchInsert忽略错误并且继续执行后续插入,可以使用continueOnError选项。这样就可以将上面例子中的第一个、第二个以及第四个文档都插入到集合中。Shell并不支持这个选项,但是所有驱动程序都支持。
3.1.2 插入校验
插入数据时,MongoDB只对数据进行最基本的检查:检查文档的基本结构,如果没有”_id”字段,就自动增加一个。检查大小就是其中一项基本结构检查:所有文档都必须小于16 MB(这个值是MongoDB设计者人为定的,未来有可能会增加)。作这样的限制主要是为了防止不良的模式设计,并且保证性能一致。如果要查看doc文档的BSON大小(单位为字节),可以在shell中执行Object.bsonsize(doc)。
16 MB的数据究竟有多大?要知道整部《战争与和平》也才3.14 MB。
由于MongoDB只进行最基本的检查,所以插入非法数据很容易(如果你想这么干的话)。因此,应该只允许信任的源(比如你的应用程序服务器)连接数据库。主流语言的所有驱动程序(以及大部分其他语言的驱动程序),都会在将数据插入到数据库之前做大量的数据校验(比如文档是否过大,文档是否包含非UTF-8字符串,是否使用不可识别的类型)。
3.2 删除文档
现在数据库中有些数据,要删除它:
> db.foo.remove()
上述命令会删除foo集合中的所有文档。但是不会删除集合本身,也不会删除集合的元信息。
remove函数可以接受一个查询文档作为可选参数。给定这个参数以后,只有符合条件的文档才被删除。例如,假设要删除mailing.list集合中所有”opt-out”为true的人:
> db.mailing.list.remove({"opt-out" : true})
删除数据是永久性的,不能撤销,也不能恢复。
删除速度
删除文档通常很快,但是如果要清空整个集合,那么使用drop直接删除集合会更快(然后在这个空集合上重建各项索引)。
例如,使用如下方法插入一百万个测试数据:
> for (var i = 0; i < 1000000; i++) {
db.tester.insert({"foo": "bar", "baz": i, "z": 10 - i})
}
现在把刚插入的文档都删除,并记录花费的时间。首先使用remove进行删除:
> var timeRemoves = function() {
... var start = (new Date()).getTime();
...
... db.tester.remove();
... db.findOne(); // makes sure the remove finishes before continuing
...
... var timeDiff = (new Date()).getTime() - start;
... print("Remove took: "+timeDiff+"ms");
... }
> timeRemoves()
在MacBookAir笔记本电脑上,这段脚本输出“Removetook:9676ms”。
如果用db.tester.drop()代替remove和findOne,只用1 ms!速度提升相当明显,但也是有代价的:不能指定任何限定条件。整个集合都被删除了,所有元数据也都不见了。
上一篇文章:
MongoDB指南—4、MongoDB基础知识-使用MongoDB Shell下一篇文章:
MongoDB指南—6、更新文档