Impala与Hive的比较

2019年6月7日 223次阅读来源: IT女神

1. Impala架构

Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。其架构如图 1所示，Impala主要由Impalad， State Store和CLI组成。

《Impala与Hive的比较》

2. 与Hive的关系

Impala与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面，但从客户端使用来看Impala与Hive有很多的共同之处，如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Impala与Hive在Hadoop中的关系如图 2所示。Hive适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询，Impala给数据分析人员提供了快速实验、验证想法的大数据分析工具。可以先使用hive进行数据转换处理，之后使用Impala在Hive处理后的结果数据集上进行快速的数据分析。

《Impala与Hive的比较》

图 2

适用面：

Hive: 复杂的批处理查询任务，数据转换任务。

Impala：实时数据分析，因为不支持UDF，能处理的问题域有一定的限制，与Hive配合使用,对Hive的结果数据集进行实时分析。

3. Impala的优缺点

优点：

支持SQL查询，快速查询大数据。

可以对已有数据进行查询，减少数据的加载，转换。

多种存储格式可以选择（Parquet, Text, Avro, RCFile, SequeenceFile）。

可以与Hive配合使用。

缺点：

不支持用户定义函数UDF。

不支持text域的全文搜索。

不支持Transforms。

不支持查询期的容错。

对内存要求高。

    原文作者：IT女神
    原文地址: https://www.jianshu.com/p/7d8a5636072e
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。