标签：hive

PySpark存储Hive数据的两种方式

背景：Hive的CREATE TABLE AS 和PySpark的.write.saveAsTable存储之后产生的数据类型并不一样，前者存储的方式是Text形式的，后者的存储形式是parquet形式。示例原始数据的…

/usr/hdp/2.6.1.0-129 修改本地host和集群一样本地新建hdfs用户切换到hdfs用户（必须），否则会报没有权限错误 hadoop distcp -D ipc.client.fallback-to…

1. 说明搭建过Hadoop集群的小伙伴一定知道，如果不用docker，半小时配好Hadoop+Mysql+Hive（后简称Hive）肯定是胡吹，有了Docker镜像，没有说明文档，配好了也不一定会用。本文将介绍如何…

创建Hive表的同时创建HBase表，插入数据到Hive表的同时能够影响HBase表 1、emp.txt数据 https://www.jianshu.com/p/1d1ecf881a72 2、在Hive中创建表同时关联H…

1、登录到hive服务器 2、执行命令 beeline 3、然后执行 !connect jdbc:hive2://10.104.112.143:10001/dim

SerDe是Serialize/Deserilize的简称，目的是用于序列化和反序列化。序列化作用序列化是对象转换为字节序列的过程。序列化是字节序列恢复为对象的过程。对象的序列化主要有两种用途：对象的持久化，即把…

Hive系列之七-Sampling 在Hive中提供了数据取样（SAMPLING）的功能，用来从Hive表中根据一定的规则进行数据取样，Hive中的数据取样支持分桶表取样和数据块取样。数据块抽样（block Sampl…

我创建了一个pipeline，如下所示：（1）将tweets流数据写入Kafka的topic （2）Confluent的HDFS Sin将tweets流写入到HDF…

LanguageManual UDF – Apache Hive – Apache Software Foundation https://cwiki.apache.org/confluence/…

原因是Hive的元数据存储在Mysql中采用默认latin1编码。海致的开发环境出现了这个问题，解决方法如下所示。 1.进入mysql ，执行 show create database hive 查看hive 数据库当前…

hive 可以通过with查询来提高查询性能，因为先通过with语法将数据查询到内存，然后后面其它查询可以直接使用。 with q1 as (select * from src where key= ‘5’), q2 a…

创建表如果不加if not exist,如果已经存在表，则会报错，但是，如果加了if not exist，则如果存在了表，就会忽略后面执行的语句。 #创建完表后，hive会自动添加两个字段，一个是last_modifi…