分类：Hive

hive安装配置

HIVE是一个基于Hadoop的数据仓库，适用于一些高延迟性的应用。如果对延迟性要求比较高，则可以选择Hbase。前提：需要已经安装配置好hadoop参考：hadoop2.7.3伪分布式环境搭建详细安装过程安装mys…

为什么做分区分区表将数据组织成分区，主要可以提高数据的查询速度。如果把一年或者一个月的日志文件存放在一个表下，那么数据量会非常的大，当查询这个表中某一天的日志文件的时候，查询速度还非常的慢，这时候可以采用分区表的方式…

最近在搞greenplum连接hadoop，采用pxf插件。hadoop集群是kerberos认证的。首先添加一下hadoop的参数: $ gpconfig -c gp_hadoop_target_version -v…

一、安装hive 1、下载、解压源文件并移动、重命名文件名， tar -zxvf hive-1.1.0-cdh5.6.0.tar.gz sudo mv hive-1.1.0-cdh5.6.0 /usr/app/hive1…

编程资料专区特别推荐悄悄告诉你:)关注微信公众号【空城体系库】后查看【超级活动】可以领取百万GB资料哟资料为千锋教育，空城体系库在此·推荐： JAVA –基础 2019千锋Java初识与职业发展 …

1.下载序列化包 2.添加json序列化包 add jar /Users/zhanxf/hadoop/hive/lib/json-serde-1.3.8-jar-with-dependencies.jar; …

Sqoop从MySQL抽取数据，因为数据有更新（新增和更新在Hive中各对应一条记录），所有Hive中的数据会比MySQL数据多，数据是按trans_date分区的，但是trans_date会变化，所以即使去重后Hive…

Spark访问与Hbase关联的Hive表需要引用jar 包 hive-hbase-handler-<version>.jar 不然要报错 MetaException(message:java.lang.Cl…

写写日常在使用Hive SQL做分析时经常使用的一些函数或者方法 like like用于指定特定的字符串，或结合正则做模糊匹配 select uid from dw.today where tunittype like …

配置hive-site.xml <configuration> <property> <name>hive.metastore.local</name> <value…

hive自定义函数的使用 # 创建自定义函数(注意，此处的hdfs一定要写成别名OpsCluster1) ## create function 函数名 as 'udf类的全路径(包名+类名)' using jar "自己…

1.使用SQL文件创建一张表： hive -f create_table 2.将外部数据加载到一张表里面： LOAD DATA LOCAL INPATH ‘/usr/loc…