Presto,Spark SQL,Hive了解

大数据组件Presto,Spark SQL,Hive相互关系

https://blog.csdn.net/yilulvxing/article/details/86220888blog.csdn.net

1.Hive是一个数据仓库,是一个交互式比较弱一点的查询引擎,交互式没有presto那么强,而且只能访问hdfs的数据;Hive在查询100Gb级别的数据时,消耗时间已经是分钟级了;

2.Presto是一个交互式查询引擎,可以在很短的时间内返回查询结果,秒级,分钟级,能访问很多数据源;

Presto入门介绍

https://blog.csdn.net/cakexuexi/article/details/80820170blog.csdn.net

Presto适用的SQL函数

https://blog.csdn.net/zhangmary/article/details/82992424blog.csdn.net

presto分布式大数据SQL查询引擎官方文档

Presto | Distributed SQL Query Engine for Big Dataprestodb.jd.com

3.Spark SQL的一大用处就是执行SQL查询语句,Spark SQL也可以用来从Hive中读取数据,当我们使用其它编程语言来运行一个SQL语句,结果返回的是一个Dataset或者DataFrame.你可以使用命令行,JDBC或者ODBC的方式来与SQL进行交互。

总结:

1:在数据源的级联查询时,用Presto写SQL语句进行查询;

2:在进行简单的数据查询时,可以用HQL进行建表,查询,关联等;

3:当数据量较大时,可用SparkSQL进行建表,查询,关联等;

    原文作者:董DD
    原文地址: https://zhuanlan.zhihu.com/p/60070903
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞