标签：hive

Hive的性能优化以及数据倾斜

hive性能优化一、Map阶段的优化：（控制hive任务中的map数，确定合适的map数，以及每个map处理合适的数据量）。 map个数影响因子： input目录中文件总个数； input目录中每个文件大小；集群设…

问题导读： 1.创建内部表与外部表的区别是什么？ 2.external关键字的作用是什么？ 3.外部表与内部表的区别是什么？ 4.删除表的时候，内部表与外部表有什么区别？ 5.load data local inpath…

配置maven的过程网上有很多这里就不写了。 UDF 用户自定义函数（user defined function)–针对单条记录。创建函数流程 1、自定义一个Java类 2、继承UDF类 3、重写evaluate方法 …

hive API2 hive udf 读取HDFS的orc文件 package hive_udf_province; import org.apache.hadoop.conf.Configuration; import…

Hive Configuration Variables hive.exec.compress.output mapred最终的输出是否压缩默认false hive.exec.compress.intermediate…

HIVE是一个基于Hadoop的数据仓库，适用于一些高延迟性的应用。如果对延迟性要求比较高，则可以选择Hbase。前提：需要已经安装配置好hadoop参考：hadoop2.7.3伪分布式环境搭建详细安装过程安装mys…

一、安装hive 1、下载、解压源文件并移动、重命名文件名， tar -zxvf hive-1.1.0-cdh5.6.0.tar.gz sudo mv hive-1.1.0-cdh5.6.0 /usr/app/hive1…

1.下载序列化包 2.添加json序列化包 add jar /Users/zhanxf/hadoop/hive/lib/json-serde-1.3.8-jar-with-dependencies.jar; …

Sqoop从MySQL抽取数据，因为数据有更新（新增和更新在Hive中各对应一条记录），所有Hive中的数据会比MySQL数据多，数据是按trans_date分区的，但是trans_date会变化，所以即使去重后Hive…

Spark访问与Hbase关联的Hive表需要引用jar 包 hive-hbase-handler-<version>.jar 不然要报错 MetaException(message:java.lang.Cl…

写写日常在使用Hive SQL做分析时经常使用的一些函数或者方法 like like用于指定特定的字符串，或结合正则做模糊匹配 select uid from dw.today where tunittype like …

配置hive-site.xml <configuration> <property> <name>hive.metastore.local</name> <value…