Memcached 与Redis (3): Redis 的集群与复制

1. Redis 集群

1.1 集群节点

  • 加入集群:
    • 节点使用cluster meet <ip> <port>命令来尝试握手, 若成功, 则加入到相应的集群中.
  • ClusterNode
    • 节点使用ClusterNode 来记录自己的状态, 并为集群中所有其它节点创建相应的clusterNode.
ClusterNode{ ctime, name, flags, configEpoch, ip, port, clusterLink};
ClusterLink{ ctime, fd, sndbuf, rcvbuf, ClusterNode*};
ClusterState{ mySelf, currentEpoch; state, size, dict* nodes}. 
  • flags 记录着Node 的角色加状态信息.
  • fd 代表tcp 描述符.
  • sndbuf 和rcvbuf 作为缓冲区 ,保存着从其它Node 发送和接收到的消息.
  • ClusterState 是以该Node 的视角来看, 集群目前所处的状态.

1.2 slot

  • 以分片的方式来保存DB中的键值对, 分为16384个slot.
  • 当所有16384个槽都有节点处理时,集群处理OK上线状态.否则为fail.
  • 记录当前Node 被指派的槽信息: clusterNode{ char slots; int numslots};
    • 其中, slots 二进制位为1时代表处理相应数值的槽.
  • 节点会在集群内相互传播槽指派信息.
    • 记录着集群中所有槽的指派信息: clusterState{ clusterNode * slots[16384]};.
    • 通过查看state.slots[i] 的值, 即可得到负责处理槽i 的Node.
  • 可以在online 状态下进行重新分片动作.

1.3 在集群中执行命令

  • 接收命令的Node 会计算出key 属于那个槽,
    • 当该槽并未被指派给自己时, 会向客户端返回MOVED 错误, 指引客户端redirect 至正确的Node.
  • 计算key 所属槽的: slot_number(key) = CRC16(key) & 16383;
  • 集群的客户端会与多个Node创建�TCP 链接, redirect 命令通过转换TCP 来完成命令的发送.
    • 如果与想要redirect 的节点还未建立TCP 链接, 会先建立后再进行转向.
    • 集群模式下的redis-cli 客户端会隐藏MOVED 错误而自动完成redirect.
    • 而单机模式下的客户端因为无法进行redirect, 会打印出MOVED错误.
  • Node 只能使用0号数据库, 而单机服务器并无该限制.
    • 记录槽和键的对应关系: clusterState{ zskiplist *slot_to_keys}.

1.4 ASK 错误

  • 在重新分片期间, 可能会出现槽的键值同时分布在源和目的节点中的情况.
  • 若源节点发现键已不在自身上, 则向客户端返回ASK错误, 来指引客户端转向正在导入槽的目标节点.

1.5 复制与故障转移.

  • master 和slave
    • master负责处理槽;
    • slave �会复制master 的数据, 并在master 下线后, 代替它继续进行处理.
  • 设置slave节点: cluster replicate <node_id>.
    • 接收者设置自己的clusterNode *slaveof属性为node_id, 同时修改flags.
    • 此时会开始从master 进行数据复制的动作: slaveof <master_ip> <master_port>.
  • clusterNode{ clusterNode *slaves, numslaves}.
    • 记录着正在复制该master的slave信息
  • 故障检测
    • 定期发送PING 消息, 若规定时间内没有返回, 则将节点标记为probable fail(PFAIL).
    • 若集群中, 若半数以上处理槽的master 都将某节点设置为PFAIL, 则该节点将被标记为FAIL, 同时进行广播.
  • 故障转移
    • 如果slave 发现master 已下线, 则开始进行故障转移.
  • 选举新的master
    • 集群的配置纪元为自增计数器, 每一次故障转移会进行自增.
    • 每个处理槽的master 都有一票, 第一个向master 要求投票的slave 将获得master 的投票.
    • 收集到大于N/2个投票的slave 会成为新的 master.

1.6 消息

  • PING消息.
    • 默认每秒发送一次.
    • 过程: 从已知节点列表中随机选出五个节点, 对其中的最长时间没有发送过PING 的节点发送该消息, 来检测其是否在线.
  • PONG消息.
    • 对MEET 和PING 的响应.
    • 或者用于让其它节点刷新对自己状态的认识
      • 如: 故障转移后新的master.
  • PUBLISH消息.
    • 节点收到后, 会执行该命令, 然后向集群广播PUBLISH 消息.

2. 复制

复制分为: 初次复制和断线后复制.

2.1 旧版的实现

  • 同步的实现.
    • master 在收到SYNC 命令后, 从后台生成RDB 文件, 并使用缓存记录从现在开始的所有写操作.
    • slave 接收并载入RDB 文件, 并接收执行缓存中记录的写操作.
  • 命令传播.
    • 在同步过后, master 会将其执行的更新命令发送给master, 说明其已达到一致状态.
    • 由于执行SYNC 命令非常耗费资源, 所以在断线后复制时效率不佳.

2.2 新版的实现

  • 完整重同步.
    • 用于初次复制, 步骤等于SYNC.
  • 部分重同步.
    • 处理断线后重复制.
    • master 只用将断线期间的更新命令发送给slave, 并让其执行.
      • master 和slave 各自维护各自的replication offset, 并分别在传播和接收传播时加上N.
        • 通过对比offset 的值来得知主从是否处于一致状态.
    • 复制积压缓存区.
      • 由master 负责维护的fixed-size 的FIFO 队列, 默认大小为1MB.
      • 进行命令传播时, 将命令写入缓存区.
      • 缓存区同时会为队列中每个字节记录相应的offset.
      • 对于断线重连的slave, 若其offset 之后的数据仍然存在于缓存区, 则使用部分重同步, 否则就需要使用完全重同步.
      • 根据slave 断线后重连的时长和master 的写命令频率来调整缓存区大小.
    • 服务器运行ID.
      • 对于断线重连的slave, 会将保存的master 的ID发送给重新连接到的master, 若相同,则可以尝试进行部分重同步.

2.3 心跳检测

  • replconf ACK <offset>.
  • 用于检测主从服务器的网络连接状态.
  • 辅助实现min-slaves 配置选项, 以防止master 在不安全状态下执行写命令.
  • 检测命令丢失.
    • 当master 发现slave 的offset 小于自己的offset, 会从复制积压缓存区中找出slave 缺失的数据并进行重发.

3. Sentinel

  • 本质上是运行在特殊模式下的Redis 服务器.
  • sentinel 成为master 的客户端, 并创建两个指向master 的异步网络连接.
    1. 命令连接. 用于向master 发送命令, 并接收命令回复.
    • 订阅连接. 订阅master 的sentinel:hello channel.
  • 获取master 信息.
    • 每隔10秒通过命令连接向master 发送INFO 命令, 然后通过分析返回�获取master 的状态.
    原文作者:沪上最强亚巴顿
    原文地址: https://www.jianshu.com/p/14d9acefc783
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞