2018-04-04 HBase常见的运维工具

2023年2月3日 269次阅读来源: 米茶饿了

HBase自带许多运维工具，为用户提供管理、分析、修复和调试的功能，这些工具一部分的入口是hbase shell客户端，另一部分是在hbase的jar包中。

大多数可通过执行以下形式的命令实现：

hbase[<options>]<command>[<agrs>]

Canary

HBase Canary 是检测HBase系统状态的工具，检测粒度可以是列族、Region或Region Server等。Canary会对指定表的每一个Region抓取一行，通过探测失败或延迟来判断集群当前情况。常用的三个场景是：检查集群中所有Region是否可查；检查集群中某些特定表的所有Region是否可查；检查RegionServer的服务状态。

sudo -u hbase hbase org.apache.hadoop.hbase.tool.Canary

sudo -u hbase hbase org.apache.hadoop.hbase.tool.Canary -t 600000

sudo -u hbase hbase org.apache.hadoop.hbase.tool.Canary -t 600000 table_name1 table_name2…

sudo -u hbase hbase org.apache.hadoop.hbase.tool.Canary -t 600000 -regionserver

hbck工具

hbck工具用于检查HBase集群一致性。命令为：

sudo -u hbase hbase hbck

这条命令输出的末尾，会打印出OK或者INCONSISTENCY信息。若返回OK，说明保持一致。如果报出INCONSISTENCY，说明处于不一致状态，需要解决问题，此时可以通过-details来查看更多的细节。

注意出现INCONSISTENCY时，可以重复执行hbck工具若干次以确认。因为INCONSISTENCY可能只是暂时的，例如集群正在启动或者某个Region正在被拆分时会报INCONSISTENCY，但不意味着稳定时也不一致。

HFile查看工具

当需要查看HFile内容的文本化版本时，可以使用org.apache.hadoop.hbase.io.hfile.HFile工具实现，执行语句如下：

$${HBASE_HOME}/bin/hbase org.apache.hadoop.hbase.io.hfile.HFile

例如，查看文件hdfs://10.81.47.41:8020/hbase/TEST/1418428042/DSMP/4759508618286845475中的内容，可以敲入一下命令：

sudo -u hbase hbase org.apache.hadoop.hbase.io.hfile.Hfile -v -f hdfs:://10.81.47.41:8020/hbase/TEST/1418428042/DSMP/4759508618286845475

选项-v表示查看详细内容，如果去掉则只返回简化过的摘要内容。

CopyTable

CopyTable可以用来拷贝部分或者全部的表的内容，无论表是在同一集群或是不同集群。待操作的表必须存在才能执行CopyTable操作，用法如下：

sudo -u hbase hbase org.apache.hadoop.hbase.mapreduce.CopyTable –help

/bin/hbase org.apache.hadoop.hbase.mapreduce.CopyTable — help

Usage: CopyTable [general options] [–starttime=X] [–endtime=Y] [–new.name=NEW] [–peer.adr=ADR]

其中<tablename>表示待考别的表的名称。例如我们可以将 TestTable 拷贝到某个集群，该集群是1小时时间窗口区间段的备份：

hbase org.apache.hadoop.hbase.mapreduce.CopyTable -Dhbase.client.scanner.caching=100 -Dmapred.map.tasks.speculative.execution=false –startrow=rk1 –stoprow=rk4 –starttime=1265875194289 –endtime=1265878794289 –peer.adr=transwarp-perf1,transwarp-perf2,transwarp-perf3:2181:/hyperbase1 –new.name=TestTableNew –families=cf1:cf2 TestTable 该命令中各选项的含义如下： startrow：起始行； stoprow：结束行； starttime：起始时间（毫秒级unixtime），如果没有设定结束时间意味着永远执行； endtime：结束时间，若没有明确指定起始时间，可忽略该选项； new.name：新的表名； peer.adr：目标对等集群地址（实为Zookeeper地址），采用如下格式：【hbase.zookeeper.quorum:hbase.zookeeper.client.port:zookeeper.znode.parent;】 families：需拷贝的列族列表，如有多个用逗号分隔。此处cf1:cf2表示从cf1拷贝到cf2。

Export

Export 用来将表中的内容转储到HDFS上面的序列文件，可指定时间戳(timestamp)，命令如下：sudo -u hbase hbase org.apache.hadoop.hbase.mapreduce.Export<tablename><outputdir>[<version>[<starttime>[endtime]]]

例如，如下命令用export指定时间戳(timestamp)导出表member5，到集群master24的HDFS：

hbase org.apache.Hadoop.hbase.mapreduce.Export member5 hdfs://master24:9000/user/hadoop/dump2 1 1401938590466 1401938590467

Import

Import 工具用来将之前被 Export 的数据载入HBase中。命令如下：

sudo -u hbase hbase org.apache.hadoop.hbase.mapreduce.Import<tablename><inputdir>

例如，用import将集群master24的HDFS中的表member5导入至HBase，实现命令如下：

sudo -u hbase hbase org.apache.hadoop.hbase.mapreduce.Import member5 hdfs://master24:9000/user/hadoop/dump2

ImportTsv

ImportTsv 工具的作用是把数据以TSV格式载入到HBase中。

它有以下两个典型的用途：

通过 Puts 操作将数据从HDFS中的TSV格式载入到HBase中。

sudo -u hbase hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.columns=a,b,c<tablename><hdfs-inputdir>

TSV 是Tab-separated values的缩写，即制表符分隔值。 CSV，Comma-separated values（逗号分隔值）。 TSV是用制表符（Tab,’\t’）作为字段值的分隔符； CSV是用半角逗号（’,’）作为字段值的分隔符；注意：IANA规定的标准TSV格式，字段值之中是不允许出现制表符 Python对TSV文件的支持： Python的csv模块准确的讲应该叫做dsv模块，因为它实际上是支持范式的分隔符分隔值文件（DSV，delimiter-separated values）的。 delimiter参数值默认为半角逗号，即默认将被处理文件视为CSV。当delimiter=’\t’时，被处理文件就是TSV。

第二种用途是和completebulkload 配合使用，为要载入的StoreFiles做准备。sudo -u hbase hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.columns=a,b,c -Dimporttsv.bulk.output=<outputdir><tablename><hdfs-data-inputdir>

其中各选项的含义如下： Dimporttsv.columns：指定原数据对应映射到HBase中的哪些列。如果该列包括的是行键，那么则用 HBASE_ROW_KEY 来表示该列的列名。

Dimporttsv.bulk.output：指定HFiles的存放目录；若不指定该项，数据会直接存放在HBase对应的表中。

CompleteBulkload

completeBulkload工具会将产生的StoreFiles 移动到HBase表中。这个工具通常与ImportTsv的输出配合使用。

sudo -u hbase hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles<hdfs://storefileoutput><tablename>

<hdfs://storefileoutput>通常表示经过ImportTsv载入到HDFS的StoreFiles的路径。

RowCounter和CellCounter

RowCounter是用来计算表行数的MapReduce工程。通常，当用户对元数据的一致性有疑问时，RowCounter可以作为一个比较实用的工具来全面检查HBase是否读取了表的所有block。它可以通过 –starttime=[starttime]和–endtime=[endtime]标签来限定数据的时间范围。

sudo -u hbase hbase org.apache.hadoop.hbase.mapreduce.RowCounter<tablename>[<column1><columb2>..]

HBase还有另一个具有诊断作用的MapReduce工程，叫做CellCounter。他和RowCounter类似，但会收集和表相关的更细节的统计数据，包括：表的行数、所有行的列族数、所有行的qualifier数，每个列族出现的次数，每个qualifier出现的次数、每个qualifier的版本总数。

该工具也可以通过–starttime=[starttime]和–endtime=[endtime]来限定扫描表的时间范围。

sudo -u hbase hbase org.apache.hadoop.hbase.mapreduce.CellCounter<tablename><outputDir>[regex or prefix]

hbase clean 工具

hbase clean 命令是用于清除ZooKeeper或HDFS上的HBase相关数据的工具。它适用于测试或者铲除HBase集群时对ZooKeeper或HDFS的清理。

sudo -u hbase clean (–cleanZk|–cleanHdfs|–cleanAll)

cleanZk：清除Zookeeper上的HBase数据。

cleanHdfs：清除HDFS 上的HBase数据。

cleanAll：清除Zookeeper和HDFS上HBase数据。

    原文作者：米茶饿了
    原文地址: https://www.jianshu.com/p/f9230cc27cc6
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。