Spark SQL（一）入门介绍

2023年1月10日 306次阅读来源: Sx_Ren

假设有如下文本文件：
id, name, age, city
1001,zhangsan,45,beijing
1002,lisi,35,shanghai
1003,wangwu,29,tianjin
…….
基于hive对上述文件进行统计分析步骤为：

table定义：person
column定义：
id：int
name：string
age： int
city：string
hive：load data
sql: query….

Hive:是类似于sql的Hive QL语言， sql==>mapreduce
特点：查询计划被转化为MapReduce任务，执行效率差
改进：hive on tez、hive on spark、hive on mapreduce

Spark: hive on spark ==> shark(hive on spark)
shark 刚推出时非常受欢迎，基于spark、基于内存的列式存储、与hive能够兼容
缺点：hive ql的解析、逻辑执行计划生成、执行计划的优化是依赖于hive的
仅仅只是把物理执行计划从mr作业替换成spark作业

Shark终止以后，产生了2个分支：
1）hive on spark
Hive社区，源码是在Hive中
2）Spark SQL
Spark社区，源码是在Spark中
支持多种数据源，多种优化技术，扩展性好很多
以上可以说是Spark SQL产生的背景及衍生过程
目前，基于Hadoop使用SQL语句查询（SQL on Hadoop），有如下方式：

Hive
sql ==> mapreduce
metastore ：元数据
sql：database、table、view
facebook
impala
cloudera ： cdh（建议大家在生产上使用的hadoop系列版本）、cm
sql：自己的守护进程执行的，非mr
metastore
presto
facebook
京东
sql
drill
sql
访问：hdfs、rdbms、json、hbase、mongodb、s3、hive
Spark SQL
sql
dataframe/dataset api
metastore
访问：hdfs、rdbms、json、hbase、mongodb、s3、hive ==> 外部数据源

对于Spark SQL，官网是这么说的：Spark SQL is Apache Spark’s module for working with structured data.
可以是针对于structured data（结构化数据），而不仅仅是SQL，个人认为这个名字起的不是很好，可见
Spark SQL它不仅仅有访问或者操作SQL的功能，还提供了其他的非常丰富的操作：外部数据源、优化

Spark SQL总结：

Spark SQL的应用并不局限于SQL；
访问hive、json、parquet等文件的数据；
SQL只是Spark SQL的一个功能而已，可见Spark SQL这个名字起的并不恰当
Spark SQL提供了SQL的api、DataFrame和Dataset的API；

    原文作者：Sx_Ren
    原文地址: https://www.jianshu.com/p/16024809a075
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。