Controller这个角色是在kafka 0.8以后添加的,它负责的功能很多; Topic的创始, Partition leader的选取, Partition的增加, PartitionReassigned, Pre…
标签:partition
kafka和zookeeper详解
一、kafka 架构 1.1 相关概念 如图.1中,kafka 相关名词解释如下: 1.producer: 消息生产者,发布消息到 kafka 集群的终端或服务。 2.broker: kafka 集群中包含的服务…
sql over 用法
转载自:http://blog.csdn.net/ly0309/article/details/7008008 RANK ( ) OVER ( [query_partition_clause] order_by_clau…
Spark 核心 RDD 剖析(下)
上文Spark 核心 RDD 剖析(上)介绍了 RDD 两个重要要素:partition 和 partitioner。这篇文章将介绍剩余的部分,即 compute func、dependency、preferedLoca…
spark从入门到放弃十二: 深度剖析宽依赖与窄依赖
文章地址:http://www.haha174.top/article/details/256658 根据hello world 的例子介绍一个什么是宽依赖和窄依赖。 [图片上传失败…(image-2d03e…
hive 问题集
Q:Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.…
我的Hive学习之旅
row number 作用 : 返回这个Partition下的当前Row号,根据排序字段生成,无重复。 语法 :row_number() over (partition by 字段a order by 计算项b desc…
cassandra百亿级数据库迁移实践
迁移背景 cassandra集群隔段时间出现rt飙高的问题,带来的影响就是请求cassandra短时间内出现大量超时,这个问题发生已经达到了平均两周一次的频率,已经影响到正常业务了。而出现这些问题的原因主要有以下3点: …
hive的动态分区加载数据和静态分区加载数据
静态分区static partition:手动输入数据分区名称。 动态分区dynamic partition:通过数据来判断数据分区名称。 开启动态分区:set hive.exec.dynamic.partition=t…
hive的partition的作用和使用方法
一、背景 在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 分区表指的是在创建表时指定的partition的…