分类：Hive

presto和hive适用场景

经过评测：presto的平均性能是hive的10倍 presto优点：数据源具有完全解耦，高性能，以及对ansi sql的支持特性，使得presto在etl，实时数据计算、ad-hoc查询和实时数据流分析等多个场景中能够…

写mapreduce程序时，如果reduce个数>1，想要实现全排序需要控制好map的输出，详见Hadoop简单实现全排序现在学了hive，写sql大家都很熟悉，如果一个order by解决了全排序还用那么麻烦写…

Spark On Hive，通过spark sql模块访问和使用Hive，默认Spark预编译(pre-built)版不包含hive相关依赖，并不支持此功能，因此需要对spark源码进行重新编译，并进行相关的配置，下面是…

在建表的时候我们常将日期字段设置为INT类型，将诸如20180601这样的数字值来表示日期，这样在做日期比较等操作时没有问题，但是要进行某些日期计算，就要先转成日期类型才能进行计算了，怎么转换呢？数据准备下面在Hiv…

1.创建表： create table if not exists mydb.exployees( name string comment 'Employee name', salary float comment 'E…

hive桶表 1 桶表的概念在hive中，数据库、表、分区都是对应到hdfs上的路径，当往表中上传数据的时候，数据会传到对应的路径下，形成新的文件，文件名的格式类似为00000_0…每次插入文件都会形成新的…

SQL查询中in和exists的区别分析 select * from A where id in (select id from B); select * from A where exists (select 1 fr…

转自：https://blog.csdn.net/hguisu/article/details/7256833 Hive 是基于Hadoop 构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoo…

Avro（[ævrə]）是Hadoop的一个子项目，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人）牵头开发。Avro是一个数据序列化系统，设计用于支持大批量数据交换的应用。它…

本文来自网易云社区作者：王潘安执行阶段 launchTask 回到Driver类的runInternal方法，看以下执行过程。在runInternal方法中，执行过程调用了exec…

数据通过定期执行SQL查询并为结果集中的每行创建输出记录来进行加载。默认情况下，数据库中的所有表都被复制，每个表都有自己的输出topic。connector会对数据库…

安装元素数据存储选择默认使用derby数据库，不能够多个用户同时使用，多用于测试使用MySQL数据库存储元数据，多用于生产环境 HDFS数据仓库目录创建数据仓库目录 hadoop fs -mkdir -p /us…