Hive on Mapreduce执行流程

2023年8月29日 306次阅读来源: 施智沂

执行流程详细解析

Step 1：UI(user interface) 调用 executeQuery 接口，发送 HQL 查询语句给 Driver

Step 2：Driver 为查询语句创建会话句柄，并将查询语句发送给 Compiler，等待其进行语句解析并生成执行计划

Step 3 and 4：Compiler 从 metastore 获取相关的元数据

Step 5：元数据用于对查询树中的表达式进行类型检查，以及基于查询谓词调整分区，生成计划

Step 6 (6.1，6.2，6.3)：由 Compiler 生成的执行计划是阶段性的 DAG，每个阶段都可能会涉及到 Map/Reduce job、元数据的操作、HDFS 文件的操作，Execution Engine 将各个阶段的 DAG 提交给对应的组件执行。

Step 7, 8 and 9：在每个任务（mapper / reducer）中，查询结果会以临时文件的方式存储在 HDFS 中。保存查询结果的临时文件由 Execution Engine 直接从 HDFS 读取，作为从 Driver Fetch API 的返回内容。

    原文作者：施智沂
    原文地址: https://www.jianshu.com/p/cb9550e9148f
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。