分类：Hive

HBase和Hive整合

HBase版本：1.2.6 Hive版本：1.2.1 1. 把HIVE_HOME/lib/hive-hbase-handler-1.2.1.jar 复制到HBASE_HOME/lib/下 2. 把HBASE_HOME/l…

每天有多少用户首次流失 select t4.aa,count(*) from ( select t3.role_id role_id,min(t3.date1) aa from ( select t2.role_id r…

Mahout mahout：运行在hadoop集群上的机器学习库使用mahout：下载，解压安装包设置环境变量，编译配置文件键入mahout --help命令，检查Mahout是否安装完好在hdfs的目标目录中…

一、需求：根据每日访问信息，算累计访问输入数据：设备ID 日期 10000004 20180501 10000005 20180501 10000004 20180502 10000005 20180502 1000…

背景业务系统库数据包含了大量历史数据，核心的表超过千万级甚至亿级后，传统在业务库上做数据分析已不合时宜，需要迁移至大数据平台（hive/spark sql/impala）做数据分析,如果按天全量导入至平台不仅消耗大量服…

同关系型数据库一样，Hive中也支持视图(View)和分区(Partition)，但与关系型数据库中的有所区别，本文简单介绍Hive中视图和分区的示例。在真实业务场景下，视图的应用比较少，分区使用的非常多，因此建议对分…

如何设置map个数在hive中没有办法直接设置map个数，但是可以通过设置一个map处理的最大数据量，来设置map个数参数如下： set mapred.max.split.size=256000000; -- 决定每…

1.Hive中内部表和外部表及其对应的hdfs路径 1.1 Hive内部表和外部表的区别 Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除…

需求 nginx日志格式: '$remote_addr - $remote_user [$time_local] "$request" ' '$status $body_bytes_sent "$http_referer…

本文通过展示hive.mapjoin.smalltable.filesize 这个参数的设置,来比较是否使用mapjoin的执行计划的区别测试sql: SELECT id, clienttime FROM ( SELE…

1.snappy编译安装下载snappy,编译。前置条件：gcc c++, autoconf, automake, libtool, Java 6, JAVA_HOME set, Maven 3 1）运行：autog…

前面文章介绍了Hive中是支持分区的。关系型数据库（如Oracle）中，对分区表Insert数据时候，数据库自动会根据分区字段的值，将数据插入到相应的分区中，Hive中也提供了类似的机制，即动态分区(Dynamic P…