HBase版本:1.2.6 Hive版本:1.2.1 1. 把HIVE_HOME/lib/hive-hbase-handler-1.2.1.jar 复制到HBASE_HOME/lib/下 2. 把HBASE_HOME/l…
分类:Hive
Hive-SQL
每天有多少用户首次流失 select t4.aa,count(*) from ( select t3.role_id role_id,min(t3.date1) aa from ( select t2.role_id r…
hadoop体系的简单学习笔记
Mahout mahout:运行在hadoop集群上的机器学习库 使用mahout: 下载,解压安装包 设置环境变量,编译配置文件 键入mahout --help命令,检查Mahout是否安装完好 在hdfs的目标目录中…
hive优化-级联求和
一、需求:根据每日访问信息,算累计访问 输入数据: 设备ID 日期 10000004 20180501 10000005 20180501 10000004 20180502 10000005 20180502 1000…
sqoop增量数据迁移
背景 业务系统库数据包含了大量历史数据,核心的表超过千万级甚至亿级后,传统在业务库上做数据分析已不合时宜,需要迁移至大数据平台(hive/spark sql/impala)做数据分析,如果按天全量导入至平台不仅消耗大量服…
[一起学Hive]之五-Hive的视图和分区
同关系型数据库一样,Hive中也支持视图(View)和分区(Partition),但与关系型数据库中的有所区别,本文简单介绍Hive中视图和分区的示例。 在真实业务场景下,视图的应用比较少,分区使用的非常多,因此建议对分…
hive设置map和reduce数量
如何设置map个数 在hive中没有办法直接设置map个数,但是可以通过设置一个map处理的最大数据量,来设置map个数 参数如下: set mapred.max.split.size=256000000; -- 决定每…
hdfs,hive大数据的存储管理和显示管理
1.Hive中内部表和外部表及其对应的hdfs路径 1.1 Hive内部表和外部表的区别 Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据 所在的路径, 不对数据的位置做任何改变。在删除…
通过Hive及其Udf函数进行Nginx日志分析
需求 nginx日志格式: '$remote_addr - $remote_user [$time_local] "$request" ' '$status $body_bytes_sent "$http_referer…
Hive MapJoin 执行计划
本文通过展示hive.mapjoin.smalltable.filesize 这个参数的设置,来比较是否使用mapjoin的执行计划的区别 测试sql: SELECT id, clienttime FROM ( SELE…
Hadoop的Snappy安装配置
1.snappy编译安装 下载snappy,编译。 前置条件:gcc c++, autoconf, automake, libtool, Java 6, JAVA_HOME set, Maven 3 1)运行:autog…
[一起学Hive]之六-Hive的动态分区
前面文章介绍了Hive中是支持分区的。 关系型数据库(如Oracle)中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic P…