Presto，Spark SQL，Hive了解

2024年5月15日 216次阅读来源: 董DD

大数据组件Presto，Spark SQL，Hive相互关系

1.Hive是一个数据仓库，是一个交互式比较弱一点的查询引擎，交互式没有presto那么强，而且只能访问hdfs的数据；Hive在查询100Gb级别的数据时，消耗时间已经是分钟级了；

2.Presto是一个交互式查询引擎，可以在很短的时间内返回查询结果，秒级，分钟级，能访问很多数据源；

Presto入门介绍

Presto适用的SQL函数

presto分布式大数据SQL查询引擎官方文档

3.Spark SQL的一大用处就是执行SQL查询语句，Spark SQL也可以用来从Hive中读取数据，当我们使用其它编程语言来运行一个SQL语句，结果返回的是一个Dataset或者DataFrame.你可以使用命令行，JDBC或者ODBC的方式来与SQL进行交互。

总结：

1：在数据源的级联查询时，用Presto写SQL语句进行查询；

2：在进行简单的数据查询时，可以用HQL进行建表，查询，关联等；

3：当数据量较大时，可用SparkSQL进行建表，查询，关联等；

    原文作者：董DD
    原文地址: https://zhuanlan.zhihu.com/p/60070903
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。