主从复制以及redis复制演进

作者: 数据库信息  发布:2019-10-04

故障切换 

  在实际生产环境中,在没有哨兵的主从架构里如果要重启从库,比较好的方式是先动态调配主库中的复制积压缓冲队列,调整大小应大于某个N值,N值计算公式:backlog_size = 重启从实例时长 * 主实例offset每秒写入量,这样好处在于,即使从库重启断线一段时间后再启动任然保持部分复制。调整方式通过config set repl-backlog-size <字节数>,当我们重启完成后又可以将

repl-backlog-size重新调回原有值。当然在数据量小或者重启时间短情况下,也可以直接重启从节点。 

  当主库宕机时候,在没有哨兵情况下,需要现将从节点中的某一台提升为主库,我们需要在所有从节点中找到当前的offset最大值的从库(这样代表该库相对其他从库数据较全),然后执行slaveof no one将该从库提升为主库,最后将所有其他重库依次执行slaveof ip port(ip和port是新主库的IP地址和端口),最后完成故障切换。此外,redis4.0中这种切换任然采用部分复制进行数据同步。

 

psync1的基本实现

redis2.8为支持psync1,引入了replication backlog buffer(后文称:复制积压缓冲区);

复制积压缓冲区是redis维护的固定长度缓冲队列(由参数repl-backlog-size设置,默认1MB),
master的写入命令在同步给slaves的同时,会在缓冲区中写入一份(master只有1个积压缓冲区,所有slaves共享)。

当redis复制中断后,slave会尝试采用psync, 上报原master runid 当前已同步master的offset(复制偏移量,类似mysql的binlog file和position);
如果runid与master的一致,且复制偏移量在master的复制积压缓冲区中还有(即offset >= min(backlog值),master就认为部分重同步成功,不再进行全量同步。

部分重同步成功,master的日志显示如下:

30422:M 04 Aug 14:33:48.505 * Slave xxxxx:10005 asks for synchronization
30422:M 04 Aug 14:33:48.506 * Partial resynchronization request from xxx:10005 accepted. Sending 0 bytes of backlog starting from offset 6448313.

redis2.8的部分同步机制,有效解决了网络环境不稳定、redis执行高时间复杂度的命令引起的复制中断,从而导致全量同步。但在应对slave重启和Master故障切换的场景时,psync1还是需进行全量同步。

复制演进中解决的问题

  早起版本才用的sync同步方法,虽然实现了简单的主从同步,但是在从库断线或重启时无法实现部分同步,由此在2.8版本推出psync1,redis2.8的部分同步机制,有效解决了网络环境不稳定、redis执行高时间复杂度的命令引起的复制中断,从而导致全量同步。但在应对从库重启和主库故障切换的场景时,psync1还是需进行全量同步。于是在4.0新的psync得到了加强,redis4.0通过在关闭时候执行RDB快照,将复制信息保存在RDB中等到重新启动时加载RDB文件载入复制信息,通过对比复制信息启用部分复制,有效的解决了psync1情形下从库重启复制信息丢失而导致全量同步的问题。同时引入两组replid、offset,主从切换时交换两组值来实现主从故障切换时候依旧采用部分复制。

  再次强调,在上述的过程的实现是从库不开启AOF持久化情况下,如果从库开启的AOF持久化,重启时候依然使用全量复制。

 

redis启动读取RDB中复制信息

redis实例启动读取RDB文件,通过rdb.c文件中rdbLoadRio()函数实现。
redis加载RDB文件,会专门处理文件中辅助字段(AUX fields)信息,把其中repl_id和repl_offset加载到实例中,分别赋给master_replid和master_repl_offset两个变量值。
以下代码,是从RDB文件中读取两个辅助字段值。

int rdbLoadRio(rio *rdb, rdbSaveInfo *rsi) {
----------省略-----------

else if (!strcasecmp(auxkey->ptr,"repl-id")) {//读取的aux字段是repl-id
                if (rsi && sdslen(auxval->ptr) == CONFIG_RUN_ID_SIZE) {
                    memcpy(rsi->repl_id,auxval->ptr,CONFIG_RUN_ID_SIZE 1);
                    rsi->repl_id_is_set = 1;
                }
            } else if (!strcasecmp(auxkey->ptr,"repl-offset")) { 
                if (rsi) rsi->repl_offset = strtoll(auxval->ptr,NULL,10);
            } else {
                /* We ignore fields we don't understand, as by AUX field
                 * contract. */
                serverLog(LL_DEBUG,"Unrecognized RDB AUX field: '%s'",
                    (char*)auxkey->ptr);
            }
}

二、主从复制

Redis4.0新特性psync2(partial resynchronization version2)部分重新同步(partial resync)增加版本;
主要解决Redis运维管理过程中,从实例重启和主实例故障切换等场景带来的全量重新同步(full resync)问题。

复制初始化阶段

  当执行完slaveof  masterip  port 命令时候,从库根据指明的master节点ip和port向主库发起socket连接,主库收到socket连接之后将连接信息保存,此时连接建立;

  当socket连接建立完成以后,从库向主库发送ping命令,以确认主库是否可用,此时的结果返回如果是PONG则代表主库可以用,否则可能出现超时或者主库此时在处理其他任务阻塞那么此时从库将断开socket连接,然后进行重试;

  如果主库连接设置了密码,则从库需要设置masterauth参数,此时从库会发送auth命令,命令格式为“auth 密码”进行密码验证,其中密码为masterauth参数配置的密码,需要注意的是如果主库设置了密码验证,从库未配置masterauth参数则报错,socket连接断开。

  当身份验证完成以后,从节点发送自己的监听端口,主库保存其端口信息,此时进入下一个阶段:数据同步阶段。

什么是Redis部分重新同步psync

redis部分重新同步:是指redis因某种原因引起复制中断后,从库重新同步时,只同步主实例的差异数据(写入指令),不进行bgsave复制整个RDB文件。

本文的名词规约:
部分重新同步:后文简称psync
全量重新同步:后文简称fullsync
redis2.8第一版部分重新同步:后文简称psync1
redis4.0第二版本部分重新同步:后文简称psync2

在说明psync2功能前,先简单阐述redis2.8版本发布的psync1

五、马上实践

  为了演示4.0的psync2功能,这里做实践演示。主从实例采用上述搭建的主从架构,主库:10.1.210.69:6379 、从库:10.1.210.69:6380和10.1.210.69:6381。首先关闭一台从节点10.1.210.69:6380:

澳门金莎娱乐网站 1

查看日志从库执行了RDB快照: 

澳门金莎娱乐网站 2

查看RDB文件,里面记录了相关复制信息:

澳门金莎娱乐网站 3

此时我们在启动从库,查看对应日志,此时启用部分复制来恢复数据:

澳门金莎娱乐网站 4

之前提到过,当从库开启来AOF持久化时候,重启时加载文件从AOF文件中加载,但是AOF文件中没有对应的复制信息,所以从实例依旧采用全量复制。以下是从库开启AOF持久化后,重启日志,可以看到是全量同步:

澳门金莎娱乐网站 5

 

redis关闭时,持久化复制信息到RDB

redis在关闭时,通过shutdown save,都会调用rdbSaveInfoAuxFields函数,
澳门金莎娱乐网站 ,把当前实例的repl-id和repl-offset保存到RDB文件中。
说明:当前的RDB存储的数据内容和复制信息是一致性的。熟悉MySQL的同学,可以认为MySQL中全量备份数和binlog信息是一致的。
rdbSaveInfoAuxFields函数实现在rdb.c源文件中,省略后代码如下:

/* Save a few default AUX fields with information about the RDB generated. */
int rdbSaveInfoAuxFields(rio *rdb, int flags, rdbSaveInfo *rsi) {

    /* Add a few fields about the state when the RDB was created. */
    if (rdbSaveAuxFieldStrStr(rdb,"redis-ver",REDIS_VERSION) == -1) return -1;

    //把实例的repl-id和repl-offset作为辅助字段,存储在RDB中
    if (rdbSaveAuxFieldStrStr(rdb,"repl-id",server.replid) == -1) return -1;
    if (rdbSaveAuxFieldStrInt(rdb,"repl-offset",server.master_repl_offset) == -1) return -1;
    return 1;
}

生成的RDB文件,可以通过redis自带的redis-check-rdb工具查看辅助字段信息。
其中repl两字段信息和info中的相同;

$shell> /src/redis-check-rdb  dump.rdb      
[offset 0] Checking RDB file dump.rdb
[offset 26] AUX FIELD redis-ver = '4.0.1'
[offset 133] AUX FIELD repl-id = '44873f839ae3a57572920cdaf70399672b842691'
[offset 148] AUX FIELD repl-offset = '0'
[offset 167] o/ RDB looks OK! o/
[info] 1 keys read
[info] 0 expires
[info] 0 already expired

psync2

  redis4.0新版本除了增加混合持久化,还优化了psync(以下称psync2)并实现即使redis实例重启的情况下也能实现部分同步,下面主要介绍psync2实现过程。psync2在psync1基础上新增两个复制id(可使用info replication 查看如下图):

  • master_replid: 复制id1(后文简称:replid1),一个长度为41个字节(40个随机串 ’0’)的字符串,每个redis实例都有,和runid没有直接关联,但和runid生成规则相同。当实例变为从实例后,自己的replid1会被主实例的replid1覆盖。

  • master_replid2:复制id2(后文简称:replid2),默认初始化为全0,用于存储上次主实例的replid1。

澳门金莎娱乐网站 6

 

  在4.0之前的版本,redis复制信息完全丢失,所以每个实例重启后只能进行全量复制,到了4.0版本,任然可以使用部分同步,其实现过程:

第一步:存储复制信息

  redis在关闭时,通过shutdown save,都会调用rdbSaveInfoAuxFields函数,把当前实例的repl-id和repl-offset保存到RDB文件中,当前的RDB存储的数据内容和复制信息是一致性的可通过redis-check-rdb命令查看。

第二步:重启后加载RDB文件中的复制信息

  redis加载RDB文件,会专门处理文件中辅助字段(AUX fields)信息,把其中repl_id和repl_offset加载到实例中,分别赋给master_replid和master_repl_offset两个变量值,特别注意当从库开启了AOF持久化,redis加载顺序发生变化优先加载AOF文件,但是由于aof文件中没有复制信息,所以导致重启后从实例依旧使用全量复制!

第三步:向主库上报复制信息,判断是否进行部分同步

  从实例向主库上报master_replid和master_repl_offset 1;从实例同时满足以下两条件,就可以部分重新同步,否则执行全量同步:

  • 从实例上报master_replid串,与主实例的master_replid1或replid2有一个相等,用于判断主从未发生改变;
  • 从实例上报的master_repl_offset 1字节,还存在于主实例的复制积压缓冲区中,用于判断从库丢失部分是否在复制缓冲区中;

 

psync2除了解决redis重启使用部分同步外,还为解决在主库故障时候从库切换为主库时候使用部分同步机制。redis从库默认开启复制积压缓冲区功能,以便从库故障切换变化master后,其他落后该从库可以从缓冲区中获取缺少的命令。该过程的实现通过两组replid、offset替换原来的master runid和offset变量实现:

  • 第一组:master_replid和master_repl_offset:如果redis是主实例,则表示为自己的replid和复制偏移量; 如果redis是从实例,则表示为自己主实例的replid1和同步主实例的复制偏移量。
  • 第二组:master_replid2和second_repl_offset:无论主从,都表示自己上次主实例repid1和复制偏移量;用于兄弟实例或级联复制,主库故障切换psync。

判断是否使用部分复制条件:如果从库提供的master_replid与master的replid不同,且与master的replid2不同,或同步速度快于master; 就必须进行全量复制,否则执行部分复制。

以下常见的主从切换都可以使用部分复制:

  1. 一主一从发生切换,A->B 切换变成 B->A ;
  2. 一主多从发生切换,兄弟节点变成父子节点时;
  3. 级别复制发生切换, A->B->C 切换变成 B->C->A;

用一句redis开发者话来说psync2,尽管它不是非常完美,但是已经非常适用。

 

psync2的实现简述

在redis cluster的实际生产运营中,实例的维护性重启、主实例的故障切换(如cluster failover)操作都是比较常见的(如实例升级、rename command和释放实例内存碎片等)。而在redis4.0版本前,这类维护性的处理,redis都会发生全量重新同步,导到性能敏感的服务有少量受损。
如前文所述,psync2主要让redis在从实例重启和主实例故障切换场景下,也能使用部分重新同步。
本节主要简述psync2在这两种场景的逻辑实现。
名词解释:

  • master_replid : 复制ID1(后文简称:replid1),一个长度为41个字节(40个随机串 '\0')的字符串。redis实例都有,和runid没有直接关联,但和runid生成规则相同,都是由getRandomHexChars函数生成。当实例变为从实例后,自己的replid1会被主实例的replid1覆盖。
  • master_replid2:复制ID2(后文简称:replid2),默认初始化为全0,用于存储上次主实例的replid1

实例的replid信息,可通过info replication进行查看; 示例如下:

127.0.0.1:6385> info replication
# Replication
role:slave
master_host:xxxx      // IP模糊处理
master_port:6382
master_link_status:up
slave_repl_offset:119750
master_replid:fe093add4ab71544ce6508d2e0bf1dd0b7d1c5b2  //这里是主实例的replid1相同
master_replid2:0000000000000000000000000000000000000000  //未发生切换,即主实例未发生过变化,所以是初始值全"0"
master_repl_offset:119750
second_repl_offset:-1

乐观复制

  redis采用量乐观复制策略,容忍在一定时间内主从数据内容是不同的,但是两者的数据最终会同步。

 

Redis从实例重启的部分重新同步

在之前的版本,redis重启后,复制信息是完全丢失;所以从实例重启后,只能进行全量重新同步。
redis4.0为实现重启后,仍可进行部分重新同步,主要做以下3点:
1 redis关闭时,把复制信息作为辅助字段(AUX Fields)存储在RDB文件中;以实现同步信息持久化。
2 redis启动加载RDB文件时,会把复制信息赋给相关字段;为部分同步
3 redis重新同步时,会上报repl-id和repl-offset同步信息,如果和主实例匹配,且offset还在主实例的复制积压缓冲区内,则只进行部分重新同步。

接下来,我们详细分析每步的简单实现

三、复制原理 

  了解redis复制原理对日后运维有很大帮助,包括如何规划节点,如何处理节点故障,redis复制过程可分为三个阶段:

  1. 复制初始化阶段
  2. 数据同步阶段
  3. 命令传播阶段

 

psync1的不足

从上文可知,psync1需2个条件同时满足,才能成功psync: master runid不变 和复制偏移量在master复制积缓冲区中。
那么在redis slave重启,因master runid和复制偏移量都会丢失,需进行全量重同步;
redis master发生故障切换,因master runid发生了变化;故障切换后,新的slave需进行全量重同步。

而slave维护性重启、master故障切换都是redis运维常见场景,为redis的psync1是不能解决这两类场景的成功部分重同步问题。

因此redis4.0的加强版部分重同步功能-psync2,主要解决这两类场景的部分重新同步。

一、前言

  在之前的文章已经详细介绍了redis入门基础已经持久化相关内容包括redis4.0所提供的混合持久化。

  通过持久化功能,Redis保证了即使在服务器宕机情况下数据的丢失非常少。但是如果这台服务器出现了硬盘故障、系统崩溃等等,不仅仅是数据丢失,很可能对业务造成灾难性打击。为了避免单点故障通常的做法是将数据复制多个副本保存在不同的服务器上,这样即使有其中一台服务器出现故障,其他服务器依然可以继续提供服务。当然Redis提供了多种高可用方案包括:主从复制、哨兵模式的主从复制、以及集群。

  本文将详细介绍Redis从2.6以到4.0提供复制方案的演进,也包括:主从复制、复制原理以及相关实践。

Redis2.8 psync1解决什么问题

在psync1功能出现前,redis复制秒级中断,就会触发从实例进行fullsync。
每一次的fullsync,集群的性能和资源使用都可能带来抖动;如果redis所处的网络环境不稳定,那么fullsync的出步频率可能较高。
为解决此问题,redis2.8引入psync1, 有效地解决这种复制闪断,带来的影响。

redis的fullsync对业务而言,算是比较“重”的影响;对性能和可用性都有一定危险。
这里列举几个fullsync常见的影响:

    1. master需运行bgsave,出现Fork,可能造成master达到毫秒或秒级的卡顿(latest_fork_usec);
    2. redis进程Fork导致Copy-On-Write内存使用消耗(后文简称COW),最大能导致master进程内存使用量的消耗。    
    (eg RDB: 5213 MB of memory used by copy-on-write)
    3. Redis Slave load RDB过程,会导致复制线程的client output buffer增长很大;增大Master进程内存消耗;
    4. Redis保存RDB(不考虑disless replication),导致服务器磁盘IO和CPU(压缩)资源消耗
    5. 发送数GB大小的RDB文件,会导致服务器网络出口爆增,如果千兆网卡服务器,期间会影响业务正常请求响应时间(以及其他连锁影响)

简介

  在主从复制中,数据库分为两类,一类是主库(master),另一类是同步主库数据的从库(slave)。主库可以进行读写操作,当写操作导致数据变化时会自动同步到从库。而从库一般是只读的(特定情况也可以写,通过参数slave-read-only指定),并接受来自主库的数据,一个主库可拥有多个从库,而一个从库只能有一个主库。这样就使得redis的主从架构有了两种模式:一类是一主多从如下图1,二类是“链式主从复制”--主->从->主-从如下图2。

澳门金莎娱乐网站 7

澳门金莎娱乐网站 8

对于一主多从的复制架构不必多说,这里解释下链式主从复制:如上图2,主库A的数据会同步到从库B和从库C,而B又是从库D和从库E的主库,所以B的数据会同步到从库D和从库E。如果向B中写数据,数据只能同步到D和E中,所以对于这种架构数据的一致性将不能保持,也不推荐这种架构。

 

redis重启时,临时调整主实例的复制积压缓冲区大小

redis的复制积压缓冲区是通过参数repl-backlog-size设置,默认1MB;为确保从实例重启后,还能部分重新同步,需设置合理的repl-backlog-size值。
1 计算合理的repl-backlog-size值大小
通过主库每秒增量的master复制偏移量master_repl_offset(info replication指令获取)大小,
如每秒offset增加是5MB,那么主实例复制积压缓冲区要保留最近60秒写入内容,backlog_size设置就得大于300MB(60*5)。而从实例重启加载RDB文件是较耗时的过程,如重启某个重实例需120秒(RDB大小和CPU配置相关),那么主实例backlog_size就得设置至少600MB.

计算公式:backlog_size = 重启从实例时长 * 主实例offset每秒写入量

2 重启从实例前,调整主实例的动态调整repl-backlog-size的值。
通过config set动态调整redis的repl-backlog-size时,redis会释放当前的积压缓冲区,重新分配一个指定大小的缓冲区。 所以我们必须在从实例重启前,调整主实例的repl-backlog-size。
调整backlog_size处理函数resizeReplicationBacklog,代码逻辑如下:

void resizeReplicationBacklog(long long newsize) {
    if (newsize < CONFIG_REPL_BACKLOG_MIN_SIZE) //�如果设置新值小于16KB,则修改为16KB
        newsize = CONFIG_REPL_BACKLOG_MIN_SIZE;
    if (server.repl_backlog_size == newsize) return; //如果新值与原值相同,则不作任何处理,直接返回。

    server.repl_backlog_size = newsize;  //修改backlog参数大小
    if (server.repl_backlog != NULL) { //当backlog内容非空时,释放当前backlog,并按新值分配一个新的backlog
        /* What we actually do is to flush the old buffer and realloc a new
         * empty one. It will refill with new data incrementally.
         * The reason is that copying a few gigabytes adds latency and even
         * worse often we need to alloc additional space before freeing the
         * old buffer. */
        zfree(server.repl_backlog);
        server.repl_backlog = zmalloc(server.repl_backlog_size);
        server.repl_backlog_histlen = 0;  //修改backlog内容长度和首字节offset都为0
        server.repl_backlog_idx = 0;
        /* Next byte we have is... the next since the buffer is empty. */
        server.repl_backlog_off = server.master_repl_offset 1;
    }
}

本文由金沙澳门官网发布于数据库信息,转载请注明出处:主从复制以及redis复制演进

关键词: 金沙澳门官网