密集索引
mongo的索引默认都是密集型的。也就是说,在一个有索引的集合里,每个文档都会有对应的索引项,哪怕文档中没有被索引键也是如此。例如,电子商务数据模型里的产品集合,假设你在产品属性category_ids上构建了一个索引。现在假设有些产品没有分配给任何分类,对于每个无分类的产品,category_ids索引中仍会存在像这样的一个null项。可以这样查询null值:db.products.find({category_ids: null})
在查询缺少分类的所有产品时,查询优化器仍然能使用category_ids上的索引定位对应产品。
稀疏索引
在稀疏索引里,只会出现被索引键有值的文档。如果想创建稀疏索引,指定{sparse: true}就可以了。例如,可以像下面这样在sku上创建一个唯一性稀疏索引:
db.products.ensureIndex({sku: 1}, {unique: true, sparse: true})
如何选择
但是有两种情况使用密集型索引会不太方便。
一种是希望在并非出现在集合所有文档内的字段上增加唯一性索引时。举例来说,你明确希望在每个产品的sku字段上增加唯一性索引。但是出于某些原因,假设产品在还未分配sku时就加入系统了。如果sku字段上有唯一性索引,而你希望插入多个没有sku的产品,那么第一次插入会成功,但后续插入都会失败,因为索引里已经存在一个sku为null的项了。这种情况下密集型索引并不适合,你所需要的是稀疏索引(sparse index)。
另一种适用稀疏索引的情况:集合中大量文档都不包含被索引键。例如,假设允许对电子商务网站进行匿名评论。这种情况下,半数评论都可能缺少user_id字段,如果那个字段上有索引,那么该索引中一半的项都会是null。出于两个原因,这种情况的效率会很差。第一,这会增加索引的大小。第二,在添加和删除带null值user_id字段的文档时也要求更新索引。
如果很少(或不会)对匿名评论进行查询,那么可以选择在user_id上构建一个稀疏索引。