HIVE是一个基于Hadoop的数据仓库,适用于一些高延迟性的应用。如果对延迟性要求比较高,则可以选择Hbase。 前提:需要已经安装配置好hadoop参考:hadoop2.7.3伪分布式环境搭建详细安装过程 安装mys…
分类:Hive
在数据仓库中如何做分区表
为什么做分区 分区表将数据组织成分区,主要可以提高数据的查询速度。 如果把一年或者一个月的日志文件存放在一个表下,那么数据量会非常的大,当查询这个表中某一天的日志文件的时候,查询速度还非常的慢,这时候可以采用分区表的方式…
Greenplum pxf 连接hadoop
最近在搞greenplum连接hadoop,采用pxf插件。hadoop集群是kerberos认证的。 首先添加一下hadoop的参数: $ gpconfig -c gp_hadoop_target_version -v…
Hive安装
一、安装hive 1、下载、解压源文件并移动、重命名文件名, tar -zxvf hive-1.1.0-cdh5.6.0.tar.gz sudo mv hive-1.1.0-cdh5.6.0 /usr/app/hive1…
各种编程资料大全A
编程资料专区特别推荐悄悄告诉你:)关注微信公众号【空城体系库】后查看【超级活动】可以领取百万GB资料哟 资料为千锋教育,空城体系库在此·推荐: JAVA –基础 2019千锋Java初识与职业发展 …
hive
1.下载序列化包 2.添加json序列化包 add jar /Users/zhanxf/hadoop/hive/lib/json-serde-1.3.8-jar-with-dependencies.jar; …
Sqoop抽取数据后核对数据准确性
Sqoop从MySQL抽取数据,因为数据有更新(新增和更新在Hive中各对应一条记录),所有Hive中的数据会比MySQL数据多,数据是按trans_date分区的,但是trans_date会变化,所以即使去重后Hive…
Spark访问与HBase关联的Hive表
Spark访问与Hbase关联的Hive表需要引用jar 包 hive-hbase-handler-<version>.jar 不然要报错 MetaException(message:java.lang.Cl…
Hive SQL 日常工作使用总结
写写日常在使用Hive SQL做分析时经常使用的一些函数或者方法 like like用于指定特定的字符串,或结合正则做模糊匹配 select uid from dw.today where tunittype like …
Hive如何使用Mysql存储元数据
配置hive-site.xml <configuration> <property> <name>hive.metastore.local</name> <value…
Hive自定义函数以及beeline客户端
hive自定义函数的使用 # 创建自定义函数(注意,此处的hdfs一定要写成别名OpsCluster1) ## create function 函数名 as 'udf类的全路径(包名+类名)' using jar "自己…
Hive基本操作
1.使用SQL文件创建一张表: hive -f create_table 2.将外部数据加载到一张表里面: LOAD DATA LOCAL INPATH ‘/usr/loc…