背景 接触SparkSQL不久,查找了些别人的资料,感觉对整个Spark HiveThriftServer2流程讲的糊里糊涂的,觉得需要从Beeline连接HiveThriftServer2开始,梳理下执行SQL的流程。…
分类:Spark
Spark-shell&Scala(一)
Spark-shell启动与退出 启动 在spark的bin目录中启动: ./spark-shell 进入spark shell中 退出 在scala> 中输入: :quit 退出(前面有个冒号) Scala基础 …
spark底层源码解析之作业提交:
作业的提交做的主要的事情是:通过提交的最后一个rdd的依赖关系来划分stage,在再将stage转换成task,由diver端发送给一个个的将task发送到Mster端,最后提交到到CoarseGrainedExecut…
Spark 配置
修改主机名和HOSTS 修改各台机器的主机名 nano /etc/hostname 主机名的命名规则如下 spark-001 spark-002 ... 修改各台机器的hosts文件 nano /etc/hosts 配置…
PySpark笔记(二):RDD
RDD(Resilient Distributed Dataset),全称弹性分布式数据集,是Spark对数据进行的核心抽象概念。我们可以将RDD理解为一个不可变的分布式对象集合,他可以包含Python、Java、Sca…
18 Spark Streaming程序的优雅停止
Spark Streaming程序的停止可以是强制停止、异常停止或其他方式停止。 首先我们看StreamingContext的stop()方法 def stop( stopSparkContext: Boolean = …
Spark Streaming Dynamic Resource Allocation 文档(非官方特性)
必要配置 通过下面参数开启DRA spark.streaming.dynamicAllocation.enabled=true 设置最大最小的Executor 数目: spark.streaming.dynamicAll…
spark-submit提交Spark Streamming+Kafka程序
我的原创地址:https://dongkelun.com/2018/06/19/sparkSubmitKafka/ 前言 Spark Streaming本身是没有Kafka相关的jar包和API的,如果想利用Spark …
Spark--Quick Start
spark具有详细的官方文档 spark具有完善的接口:Scala、Python、Java、R 启动Scala接口 ./bin/spark-shell Python ./bin/pyspark 启动pyspark,出现s…
spark internal - 作业调度
spark internal – 作业调度 作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/coloran…
Java Spark 简单示例(三)Spark SQL
本篇开始介绍Spark SQL的入门示例 Maven中引入 <dependency> <groupId>org.apache.spark</groupId> <artifactI…
阿里巴巴大数据之JAVA研发
数据部门岗位一般可以分为 前端开发/后台开发/ETL工程师/算法等方向 这里简单谈一谈目前在阿里数据部门后台研发要求: 计算机基础 基本的数据结构和算法需要理解 操作系统原理需要理解, 推荐《深入理解计算机系统》 编译原…