Hive中有种假的NULL,它看起来和NULL一摸一样,但是实际却不是NULL。空值NULL在底层默认是用’\N’来存储的,而我们习惯性对NULL 值的过滤,一般是is null 和 is not…
分类:Hive
Hive分桶表
测试数据 95001,李勇,男,20,CS 95002,刘晨,女,19,IS 95003,王敏,女,22,MA 95004,张立,男,19,IS 95005,刘刚,男,18,MA 95006,孙庆,男,23,CS 950…
Hive2
Hive的部署 解压缩、重命名、设置环境变量 在目录$HIVE_HOME/conf/下,执行命令mv hive-default.xml.template hive-site.xml重命名 hive.metastore.w…
hive中删除cascade
hive在删除一个数据库前,需要将数据库中的所有数据表全部删除,才能删除database; 强制性删除数据库需要使用cascade关键字; DROP DATABASE IF EXISTS mydb CASCADE; DR…
hive存储json格式文件
hive从0.12版本以后就开始自身支持json文件的格式了 1.文件格式 下面是测试用的文件预览格式,我将其存储为jsonTest.json文件,放在了/root目录下 {"_location":"(32.121, 4…
spark 读取 hdfs 数据分区规则
下文以读取 parquet 文件 / parquet hive table 为例: hive metastore 和 parquet 转化的方式通过 spark.sql.hive.convertMetastoreParq…
Hive简易教程 - 自定义UDF
简介 实现自定义的UDF需要编写Java程序,然后在Hive客户端中加载相关Jar并注册函数后就可以使用了。 示例:实现转化IP地址为二进制格式 import org.apache.hadoop.hive.ql.exec…
【Hive】开窗函数over小结
较之于group by,开窗函数over的好处在于:over返回的是group by 之后再join的结果。也就是说,over返回的大小和原表格应该是一致的,且能够获取到除了group by之外的column。 NOTI…
Hive的安装之嵌入模式
#cd training # tar -zxvf apache-hive-2.1.1-bin.tar.gz # rm -rf apache-hive-2.1.1-bin.tar.gz # mv apache-hive-2…
hive进阶学习
创建hive表常用语句: 1. create [external] table if not exists default.xc_log_20170416 ( ip string, user string , ... R…
(十二)SparkSQL Catalog访问Hive元数据信息
SparkSQL如何直接访问hive元数据信息 不再需要去mysql里的表里去查找 [hadoop@hadoop001 bin]$ ./spark-shell --master local[2] --jars ~/sof…
尚硅谷大数据技术之Hive
4.5.2 外部表 1.理论 因为表是外部表,所以Hive并非认为其完全拥有这份数据。删除该表并不会删除掉这份数据,不过描述表的元数据信息会被删除掉。 2.管理表和外部表的使用场景 每天将收集到的网站日志定期流入HDFS…