RDD是什么 RDD(Resilient Distributed Datasets)可扩展的弹性分布式数据集,rdd是spark最基本的数据抽象,是整个spark生态的基石。rdd表示一个只读、分区且不变的数据集合。一个…
标签:分区
Hive-分区&分桶
分区 简介 为了避免Hive每次查询都扫描整个文件,除了采用索引的方式外,还可以通过建立分区表。分区表是指在创建表的时候指定的partition的分区空间,这样在查找分区的数据时,就不用扫描所有数据文件,只需要扫描指定分…
Hive表分区
Hive在进行数据查询时会对整个表进行扫描,当表很大时将会消耗很多时间。有时候对表中比较关心某一部分的数据进行扫描,因此Hive引入分区(Partition)的概念。 Hive的分区是在Hive的表结构下根据分区的字段设…
编写Spark程序的几个优化点
虽然spark已经提供了大量简单易用的API,但要想编写出高性能的spark应用,必须要对整体框架有一定的了解,对于Spark初学者来说是比较困难的。 针对这个这个问题,其实在spark1.6中,已经加入了dataset…
Zookeeper的CP特性
CAP原则又称CAP定理,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼 分布式系统的CAP理论:理论…
SPARK[RDD之转换函数]
前面讲到了RDD的分区、RDD的创建,这节将讲解RDD的转换,RDD的转换就是从父RDD生成一个新的RDD,新的RDD分区可能和父RDD一致也可能不再一致。 常用的转换函数: map map是对每个元素进行转换,生成新的…
SPARK[RDD之partitions]
RDD是容错、并行的数据结构,具备分区的属性,这个分区可以是单机上分区也可以是多机上的分区,对于RDD分区的数量涉及到这个RDD进行并发计算的粒度。每一个分区都会在一个单独的task中执行。 可以为其指定分区个数,如果从…
Spark自定义分区(Partitioner)
基于优化和数据的有序性等问题考虑,某个设备的日志数据分到指定的计算节点,减少数据的网络传输 我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多…
Hive配置事务
Hive从0.14版本开始支持事务和行级更新,但缺省是不支持的,需要一些附加的配置。要想支持行级insert、update、delete,需要配置Hive支持事务。 Hive具有ACID语义事务的使用场景 1. 流式接收…
在数据仓库中如何做分区表
为什么做分区 分区表将数据组织成分区,主要可以提高数据的查询速度。 如果把一年或者一个月的日志文件存放在一个表下,那么数据量会非常的大,当查询这个表中某一天的日志文件的时候,查询速度还非常的慢,这时候可以采用分区表的方式…
改写Spark JdbcRDD,支持自己定义分区查询条件
Spark自带的JdbcRDD,只支持Long类型的分区参数,分区必须是一个Long区间。很多情况下,这种方式都不适用。 改写Spark JdbcRDD,支持自己定义分区查询条件(转) 我对JdbcRDD进行了改写,可支…
Hive分区表简介
简介: 如果一个表中数据很多,我们查询时就很慢,耗费大量时间,如果要查询其中部分数据该怎么办呢,这时我们引入分区的概念。 Hive中的分区表分为两种:静态分区和动态分区。 1.静态分区: 可以根据PARTITIONED …