Hbase的数据备份策略

2023年2月3日 284次阅读来源: wangliang938

摘自：http://qindongliang.iteye.com/blog/2366547
Hbase的数据备份策略有：

Distcp
CopyTable
Export/Import
Replication
Snapshot

下面介绍这几种方式：
一、Distcp（离线备份）
直接备份HDFS数据，备份前需要disable表，在备份完成之前服务不可用对在线服务类业务不友好

二、CopyTable（热备）
执行命令前，需要创建表，支持时间区间、row区间，改变表名称，改变列簇名称，指定是否copy删除数据等功能，例如：

hbase org.apache.hadoop.hbase.mapreduce.CopyTable -starttime=1265875194289 --endtime=1265878794289 --peer.adr= dstClusterZK:2181:/hbase --families=myOldCf:myNewCf,cf2,cf3 TestTable

1、同一个集群不同表名称

hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name=tableCopy  srcTable

2、跨集群copy表

hbase org.apache.hadoop.hbase.mapreduce.CopyTable --peer.adr=dstClusterZK:2181:/hbase srcTable

三、Export/Import（热备+离线）
通过Export导出数据到目标集群的hdfs，再在目标集群执行import导入数据，Export支持指定开始时间和结束时间，因此可以做增量备份。

四、Replication（实时）
通过Hbase的replication机制实现Hbase集群的主从模式实时同步

五、Snapshot（备份实时，恢复需要disable）个人觉得这是备份里面最经济划算的一个，可以每天在固定时间点对hbase表数据进行快照备份，然后如果出现问题了，可以直接恢复到某个时间点上的数据，适合修复指标计算错误的场景，然后从某个时间点上重新修复。下面详细说下使用方式：

（1）先建立一个测试表 Java代码
create 'test','cf'
（2）添加数据 Java代码

 > put 'test','a','cf:c1',1  
> put 'test','a','cf:c2',2  
> put 'test','b','cf:c1',3  
> put 'test','b','cf:c2',4  
> put 'test','c','cf:c1',5  
> put 'test','c','cf:c2',6

（3）创建快照
hbase snapshot create -n test_snapshot -t test
（4）查看快照
list_snapshots
（5）导出到HDFS Java代码

hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot test_snapshot -copy-to  hdfs://user/back/xxx

（6）从快照恢复数据到原表中
restore _snapshot 'test_snapshot'
（7）从快照中恢复到一个新表中
clone_snapshot 'test_snapshot','test_2'

    原文作者：wangliang938
    原文地址: https://www.jianshu.com/p/0482d56e1699
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。