hive>create database if not exists db_hive; hive>desc database extended db_hive; 如果数据库不为空,可以采用cascade命令,…
分类:Hive
pyhs2连接超时问题
启动hiveserver2: cd $HIVE_HOME bin/hiveserver2(默认是10000端口) sudo netstat -anp|grep 10000 pyhs2连接hive,报错如下: raise …
黑猴子的家:Hive 优化之 推测执行
在分布式集群环境下,因为程序Bug(包括Hadoop本身的bug),负载不均衡或者资源分布不均等原因,会造成同一个作业的多个任务之间运行速度不一致,有些任务的运行速度可能明显慢于其他任务(比如一个作业的某个任务进度只有5…
数据中台和数仓的关系
传统数仓 传统数仓有几个特点: 数据具有历史性 基于文件存储 以表为形态,自带元数据存储(比如Hive) 在数仓的数据是其他数据的拷贝或者拷贝的加工 传统数仓需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近。所以…
Hive 创建外部分区表
1、hive 创建外部表 create external table t_ods_test ( uid string COMMENT ‘用户id’, terminal string COMMENT…
hive文本文件导入
drop table pos_store46code ; create table pos_store46code ( A string, B string, C string, D string, E st…
Spark 之 Spark-SQL-HBASE Error java.lang.IllegalStateException: unread block data
最近遇到这样一个业务场景: 业务数据存储于 Hbase 中,并在 Hive 表中建立了 HBASE 映射表,已实现在 Hive 及 Impala 中可查,现想通过 Spark-SQL 进行查询,其中 Spark 集群基于…
黑猴子的家:Hive 的 1.x 和 2.x 初始化Hive在MySQL中的元数据信息的区别
Hive 2.x 需要 手动 初始化 Hive 在mysql的元数据信息 [victor@hadoop102 hive]$ bin/schematool -dbType mysql -initSchema
黑猴子的家:Hive和HBase整合集成
1、HBase Jar包拷贝到Hive/lib目录下 因为在操作Hive的同时对HBase也会产生影响,所以Hive需要持有操作HBase的Jar包,那么接下来拷贝Hive所依赖的Jar包(或者使用软连接的形式) [vi…
HiveQL 数据定义:修改表结构
修改表结构 • Alter Table 语句 • 重命名表 • 修改列的名字、类型、位置、注释 • 增加/更新列 • 增加表的元数据信息 • 改变表文件格式与组织 Alter Table 语句 它是在Hive中用来修改的…
HIVE常用数据处理函数
1.获取Map数据: 【data[‘key’]】 select substr(a.url,-6) ,a.usertag,b.name,b.store_type,a.ds from ( select…
hadoop权威指南第四版中文PDF及源码
hadoop刚发布了3.1版本,但目前还没有配套的学习资料。如果要了解的话得上官网去学习。并且现在3.1版本官方并不推荐在生产环境使用。作为hadoop的入门书籍,从2.x版本开始也不失为良策。 本文带来的资源是hado…