Spark Sql-Sql on Hive

2019年6月7日 240次阅读来源: raincoffee

Spark sql-sql on hive

Spark1.0添加了sql模块。对hive的hiveql也提供了良好的支持。本章主要介绍spark如何对hql进行支持的。

hive的数据类型

hiveql的分类

hive的整体框架

《Spark Sql-Sql on Hive》

hiveql的执行过程如下：

最后生成的mr job 交给hadoop的mr计算框架进行计算。

import hiveContext._
val hivecontext=new HIveConetxt(sc)
hql("create table if not exists src(key int,value string)")

《Spark Sql-Sql on Hive》

hive的整体解决方案很不错，但有一些地方需要改进。其中之一就是查询到结果返回需要相当长的时间。主要是生成的任务是基于mr的。那么可以生成spark job么。

HIvecontext是spark提供的用户接口。hiveContext集成子sqlContext。

《Spark Sql-Sql on Hive》

有了上述比较，就能抓住源码分析需要把握的几个关键点。

需要用到的数据：

《Spark Sql-Sql on Hive》

hiveql的定义和sql基本上一样。

parsesql解析过程分为两类：

《Spark Sql-Sql on Hive》

至于那些事nativecommand，hiveql里面列举了。对于非nativecommand，主要的函数事nodetoplan。

spark对hiveql的所做的优化主要体现在query相关操作，其他的依然使用hive的原声执行引擎。

在logicalplan 到physicalplan的转换过程中，tordd最关键的元素。

《Spark Sql-Sql on Hive》

由于nativecommand是一些不怎么耗时的操作，因此直接使用hive中原油的execute engine来执行即可。这些command的执行示意如下：

《Spark Sql-Sql on Hive》

    原文作者：raincoffee
    原文地址: https://www.jianshu.com/p/71334fc37376
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。