hadoop – 极大的MAX_FILESIZE的缺点

我们的一个HBase表已经发展到1000多个地区.我们通过将表的MAX_FILESIZE属性从默认的256MB更改为10GB来减少此限制.现在我们已经到了70个地区.

我想知道这种改变的副作用是什么?换句话说,增加表的MAX_FILESIZE有什么缺点?如果我们将MAX_FILESIZE增加到100GB甚至1TB会发生什么?

我最初的怀疑是压缩会大大减慢,但我想确定.你们有什么感想?

谢谢!

最佳答案 如果您使用M / R处理数据,则一个重要问题是您可以从群集中获得并行数量.正如Praveen所指出的那样,
HBase book就是这样说的:“另一个问题是地区数量对地图缩减工作的影响.每个RS保留5个区域对于工作来说太低了,而1000个会产生太多的地图.”

他们对区域数量的经验是基于对集群有多大的假设 – 如果你实际上有1000个地图位置可用,那么1000个区域就可以了.我的经验法则是沿着比地图槽数量多2-3倍的区域.取决于他们提出的所有其他要点.

点赞