mongodb分片初探

  分片(sharding)是指将数据库拆分,将其拆分到不同机器的过程,有时也用分区(partitioning)来表示,它是 MongoDB 为应对数据增长需求而采取的办法。
为什么要分片
  • 增加单台服务器可用的磁盘空间
  • 减轻单台服务器的负载
  • 处理单个mongod无法承受的吞吐量
分片原理
  在搭建mongodb分片集群之前,我们需要先了解一下其架构和原理,下图是mongodb分片集群的架构图:

《mongodb分片初探》 mongodb shard.png

 mongodb分片集群由三大组件组成:mongos路由、配置服务器config Server和分片shard,下面一一介绍它们的作用。
mongos路由
 mongos是一个前置路由,我们的应用客户端并不是直接与分片连接,而是与mongos路由连接,mongos接收到客户端请求后根据查询信息将请求任务分发到对应的分片,在正式生产环境中,为确保高可用性,一般会配置两台以上的mongos路由,以确保当其中一台宕机后集群还能保持高可用。
配置服务器
  配置服务器相当于集群的大脑,它存储了集群元信息:集群中有哪些分片、分片的是哪些集合以及数据块的分布集群启动后,当接收到请求时,如果mongos路由没有缓存配置服务器的元信息,会先从配置服务器获取分片集群对于的映射信息。同样的,为了保持集群的高可用,一般会配置多台配置服务器。
shard分片
   分片是存储了一个集合部分数据的MongoDB实例,每个分片 可以是一台服务器运行单独一个Mongod实例,但是为了提高系统的可靠性实现自动故障恢复,一个分片应该是一个复制集。

  通过分片,我们将一个集合拆分为多个数据块,这些数据块分别部署在不同的机器上,这样可以做到增加单台机器的磁盘可用空间,同时将查询分配到不同的机器上,减轻单台机器的负载。
如何分片
   在搭建集群分片之前,我们需要先明确各个组件的数量和服务器的数量,我们需要搭建1个mongos路由进程,3个配置服务器进程和3个分片进程,为方便起见,我们把2个mongos路由和3个配置服务器都放在同一台服务器,通过不同的端口号来运行,但是3个分片我们用了3台不同的服务器(其实在同一台服务器也是可以的),组件和服务器配置总体如下:
  • 机器 10.20.11.225 :1个mongos路由进程,3个配置服务器进行
  • 机器 10.20.20.239 :第一个分片
  • 机器 10.20.21.27 :第二个分片
  • 机器 10.20.23.50 :第三个分片
配置config server
  配置服务器是一个普通的mongod进程,我们在10.20.11.225机器上配置了3个mongod进程,端口号分别是:20000、20001和20002,以20000端口的进程为例,其配置如下:
dbpath=/root/fmm/software/mongodb/data/config_20000/
#日志文件
logpath=/root/fmm/software/mongodb/log/config_20000.log
#日志追加
logappend=true
#端口
port = 20000
#最大连接数
maxConns = 50
pidfilepath = /root/fmm/software/mongodb/log/config_20000.pid
#日志,redo log
journal = true
#守护进程模式
fork = true
configsvr = true

20001和20002端口的mongod进程的配置只是端口号、日志和数据保存路径不同而已,然后就分别启动这三个实例:

./mongod -f ../config/config_20000.conf
./mongod -f ../config/config_20001.conf
./mongod -f ../config/config_20002.conf
配置mongos路由
   mongos路由是提供给客户端连接集群的,我们只配置一个就行了,但是在正式生产环境上,为了集群的高可用,我们需要配置两台以上的mongos路由,在10.20.11.225机器上我们用30000端口开启一个mongod进行来运行mongos路由,器配置如下:
#日志文件
logpath=/root/fmm/software/mongodb/log/mongos_30000.log
#日志追加
logappend=true
#端口
port = 30000
#最大连接数
maxConns = 50
pidfilepath = /root/fmm/software/mongodb/log/mongos_30000.pid
#日志,redo log
#journal = true
#守护进程模式
fork = true
configdb=10.20.11.225:20000,10.20.11.225:20001,10.20.11.225:20002

mongos路由不需要保存数据,所以不用配置数据保存地址,但是一定要配置logpath ,方便我们定位问题,配置中最重要的配置是configdb,需要配置的是3台配置服务器的地址,需要注意的是配置服务器的地址不能写成localhost或者127.0.0.1,否则会报错,配置完后我们需要启动mongos进程,命令如下:

./mongos -f ../config/mongos_30000.conf
配置分片服务器
  分片服务器上保存着集合的部分数据,我们分别在 10.20.20.239、10.20.21.27、10.20.23.50三台服务器上启动三个mongod进程,端口号都是40000,配置如下:
dbpath=/root/fmm/software/mongodb/data/
#日志文件
logpath=/root/fmm/software/mongodb/log/mongodb_shard.log
#日志追加
logappend=true
#端口
port = 40000
#最大连接数
maxConns = 50
pidfilepath = /root/fmm/software/mongodb/log/mongodb_shard.pid
#日志,redo log
journal = true
#守护进程模式
fork = true

配置完之后就可以直接启动了,命令如下:

./mongod -f ../config/./mongod

所有组件配置完之后,我们可以登陆mongos路由,查看整个集群信息:

./mongo --port=30000
mongos> sh.status()
--- Sharding Status --- 
  sharding version: {
    "_id" : 1,
    "minCompatibleVersion" : 5,
    "currentVersion" : 6,
    "clusterId" : ObjectId("5885a29be970437923e2aa86")
}
  shards:
  balancer:
    Currently enabled:  yes
    Currently running:  no
    Failed balancer rounds in last 5 attempts:  0
    Migration Results for the last 24 hours: 
        No recent migrations
  databases:
    {  "_id" : "admin",  "partitioned" : false,  "primary" : "config" }
添加分片

我们需要把三台分片服务器添加到集群中,操作如下:

mongos> sh.addShard("10.20.20.239:40000")
{ "shardAdded" : "shard0000", "ok" : 1 }
mongos> sh.addShard("10.20.21.27:40000")
{ "shardAdded" : "shard0001", "ok" : 1 }
mongos> sh.addShard("10.20.23.50:40000")
{ "shardAdded" : "shard0002", "ok" : 1 }

添加完之后再看看集群信息,可以看到三个分片已经被添加到集群了:

mongos> sh.status()
--- Sharding Status --- 
  sharding version: {
    "_id" : 1,
    "minCompatibleVersion" : 5,
    "currentVersion" : 6,
    "clusterId" : ObjectId("5885a29be970437923e2aa86")
}
  shards:
    {  "_id" : "shard0000",  "host" : "10.20.20.239:40000" }
    {  "_id" : "shard0001",  "host" : "10.20.21.27:40000" }
    {  "_id" : "shard0002",  "host" : "10.20.23.50:40000" }
  balancer:
    Currently enabled:  yes
    Currently running:  no
    Failed balancer rounds in last 5 attempts:  0
    Migration Results for the last 24 hours: 
        No recent migrations
  databases:
    {  "_id" : "admin",  "partitioned" : false,  "primary" : "config" }
开启分片
   开启分片首先需要对数据库启用分片,然后才能对数据库的集合开启分片功能,对集合开启分片功能时需要确定片键,片键与索引类似,是集合的某一个或者多个字段,mongodb会根据这个片键对数据进行拆分。在进行分片时,片键的选择是非常最要的一件事,可以说是整个分片过程中最为重要的一步,所以需要非常谨慎地选择片键,这个可以单独拿出来写一篇很长的文章了,这里不做过多的描述。

在这里我们创建了一个名为”shardtest”的数据库,数据库中有一张”user”表,user表有name,age,和sex三个字段,我们选择用age作为片键,对该集合进行分片( 这是一个木有数据的空集合),操作如下:

mongos> sh.enableSharding("shardtest")       ##对数据库开启分片
mongos> sh.shardCollection("shardtest.user",{"age":1})   ##对集合user以age作为片键进行分片
mongos> sh.status()
--- Sharding Status --- 
  sharding version: {
    "_id" : 1,
    "minCompatibleVersion" : 5,
    "currentVersion" : 6,
    "clusterId" : ObjectId("5885a29be970437923e2aa86")
}
  shards:
    {  "_id" : "shard0000",  "host" : "10.20.20.239:40000" }
    {  "_id" : "shard0001",  "host" : "10.20.21.27:40000" }
    {  "_id" : "shard0002",  "host" : "10.20.23.50:40000" }
  balancer:
    Currently enabled:  yes
    Currently running:  no
    Failed balancer rounds in last 5 attempts:  0
    Migration Results for the last 24 hours: 
        No recent migrations
  databases:
    {  "_id" : "admin",  "partitioned" : false,  "primary" : "config" }
    {  "_id" : "test",  "partitioned" : false,  "primary" : "shard0000" }
    {  "_id" : "shardtest",  "partitioned" : true,  "primary" : "shard0000" }
        shardtest.user
            shard key: { "age" : 1 }
            chunks:
                shard0000   1
            { "age" : { "$minKey" : 1 } } -->> { "age" : { "$maxKey" : 1 } } on : shard0000 Timestamp(1, 0)
  我们可以看到,由于目前集合中没有数据,所以新分片的集合起初只有一块,此块的范围是负无穷到正无穷,在shell中用$minKey和$maxKey表示,随着块的增长,mongodb会自动降其分成两块。
  我们用脚本插入10w条数据,年龄大小为1~100之间任一值,插入之后,我们再看看其状态:
mongos> sh.status()
--- Sharding Status --- 
  sharding version: {
    "_id" : 1,
    "minCompatibleVersion" : 5,
    "currentVersion" : 6,
    "clusterId" : ObjectId("5885b5067fefeb309298d15a")
}
  shards:
    {  "_id" : "shard0000",  "host" : "10.20.20.239:40000" }
    {  "_id" : "shard0001",  "host" : "10.20.21.27:40000" }
    {  "_id" : "shard0002",  "host" : "10.20.23.50:40000" }
  balancer:
    Currently enabled:  yes
    Currently running:  yes
    Failed balancer rounds in last 5 attempts:  0
    Migration Results for the last 24 hours: 
        2 : Success
  databases:
    {  "_id" : "admin",  "partitioned" : false,  "primary" : "config" }
    {  "_id" : "test",  "partitioned" : false,  "primary" : "shard0000" }
    {  "_id" : "shardtest",  "partitioned" : true,  "primary" : "shard0000" }
        shardtest.user
            shard key: { "age" : 1 }
            chunks:
                shard0000   1
                shard0001   1
                shard0002   1
            { "age" : { "$minKey" : 1 } } -->> { "age" : 17 } on : shard0001 Timestamp(2, 0) 
            { "age" : 17 } -->> { "age" : 81 } on : shard0002 Timestamp(3, 0) 
            { "age" : 81 } -->> { "age" : { "$maxKey" : 1 } } on : shard0000 Timestamp(3, 1) 
   可以看到数据被随意插入到三个分片中,如果各个片中的数据不均衡,那么这时候mongodb的均衡器就会发挥作用了,平衡器的作用是管理数据数据块的移动, 当一个集合的数据块在集群中分布达到移动阈值(Migration Thresholds)的时候,平衡器就将数目最多的分片上的数据块移动到数目比较少的分片上,平衡器内容比较多,这里不做细讲了。至此,我们已经初步完成了分片。
    原文作者:chenweixin
    原文地址: https://www.jianshu.com/p/6648efd24f25
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞