创作不易,转载请注明出处。如有疑问,请加微信wx15151889890,谢谢。
[本文链接:]https://www.jianshu.com/p/29677c052296
由于前段的数据是json格式的,因此想基于json建表。
导入json解析包
首先需要引入json的hive解析包。
我使用的是cdh5.13.3,在这里下载了hive-hcatalog-core的包
hive-hcatalog-core下载地址
hive里是使用命令添加jar包
add jar hdfs:///user/hive/jars/json-serde-1.3.8-jar-with-dependencies.jar;
添加了之后便可根据json的内容建表了
基于sjon文件建表##
单条json文本的内容
{
"prims": {
"PLCOrderCode": "6ES7 313-5BF03-0AB0",
"PLCName": "SIMP-PLC_23",
"WorkShop": "",
"ProductLine": "",
"DateTime": "10/30/2018 16:00:29:730",
"DeviceName": ""
},
"params": {
"A1_LL_P_Alarm": "ON"
}
}
hive建表语句
create external table if not exists plc_data
(
PRIMS map<string,string> comment "plc基础信息",
PARAMS map<string,string> comment "plc明细信息"
)comment "plc数据汇总表"
partitioned by (partition_day string)
row format serde 'org.apache.hive.hcatalog.data.JsonSerDe'
LOCATION
'hdfs:///data/flink/plc_data/';
serde格式注意是 org.apache.hive.hcatalog.data.JsonSerDe
将数据放置到相应的hdfs目录下面:
/data/flink/plc_data/partition_day=20181101
这里注意文件目录名称是partition_day=20181101
这个名称根据你的数据分区而定,使用命令挂在分区目录
alter table plc_data add partition (partition_day=20181101);
查询数据看下结果:
hive> select prims['PLCOrderCode'],params from plc_data;
OK
6ES7 313-5BF03-0AB0 {"A1_LL_P_Alarm":"ON"}
Time taken: 1.177 seconds, Fetched: 1 row(s)
大功告成!