Sql-On-Hadoop的流程简要分析

基于Hadoop的sql方案如hive,sparksql架构一般如下:

  • Server : ThriftServer 完成sql的解析及应用(如MR,Spark,Tez)的提交
  • 传统数据库 : 用于存储表的元数据,常见的由Mysql,postgreSql等
  • 管理元数据: MetaStore,作为ThriftServer和传统数据库的桥梁
  • 数据存储 : HDFS

Hive Sql执行流程图

《Sql-On-Hadoop的流程简要分析》 HiveSql执行力流程.jpg

SparkSql 执行流程图

SparkSql是基于spark Core的 onHadoop的sql解决方案。有多种sql解决方案,如通过启动Server的方式对客户端提交sql方案,客户端sql可通过beeline,JDBC的接口完成sql的解析执行。也可以直接调用sparkApi完成sql执行。

ThriftServer模式的sql方案

《Sql-On-Hadoop的流程简要分析》 SparkSql流程.jpg

SparkApi模式的sql方案

《Sql-On-Hadoop的流程简要分析》 Spark Sql 流程.jpg

    原文作者:WestC
    原文地址: https://www.jianshu.com/p/e2bf14caf793
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞