分类：Spark

Spark HiveThriftServer2启动流程源码分析

背景接触SparkSQL不久，查找了些别人的资料，感觉对整个Spark HiveThriftServer2流程讲的糊里糊涂的，觉得需要从Beeline连接HiveThriftServer2开始，梳理下执行SQL的流程。…

Spark-shell启动与退出启动在spark的bin目录中启动： ./spark-shell 进入spark shell中退出在scala> 中输入： :quit 退出（前面有个冒号） Scala基础 …

作业的提交做的主要的事情是:通过提交的最后一个rdd的依赖关系来划分stage,在再将stage转换成task,由diver端发送给一个个的将task发送到Mster端,最后提交到到CoarseGrainedExecut…

修改主机名和HOSTS 修改各台机器的主机名 nano /etc/hostname 主机名的命名规则如下 spark-001 spark-002 ... 修改各台机器的hosts文件 nano /etc/hosts 配置…

RDD（Resilient Distributed Dataset），全称弹性分布式数据集，是Spark对数据进行的核心抽象概念。我们可以将RDD理解为一个不可变的分布式对象集合，他可以包含Python、Java、Sca…

Spark Streaming程序的停止可以是强制停止、异常停止或其他方式停止。首先我们看StreamingContext的stop()方法 def stop( stopSparkContext: Boolean = …

必要配置通过下面参数开启DRA spark.streaming.dynamicAllocation.enabled=true 设置最大最小的Executor 数目： spark.streaming.dynamicAll…

我的原创地址：https://dongkelun.com/2018/06/19/sparkSubmitKafka/ 前言 Spark Streaming本身是没有Kafka相关的jar包和API的，如果想利用Spark …

spark具有详细的官方文档 spark具有完善的接口：Scala、Python、Java、R 启动Scala接口 ./bin/spark-shell Python ./bin/pyspark 启动pyspark,出现s…

spark internal – 作业调度作者：刘旭晖 Raymond 转载请注明出处 Email：colorant at 163.com BLOG：http://blog.csdn.net/coloran…

本篇开始介绍Spark SQL的入门示例 Maven中引入 <dependency> <groupId>org.apache.spark</groupId> <artifactI…

数据部门岗位一般可以分为前端开发/后台开发/ETL工程师/算法等方向这里简单谈一谈目前在阿里数据部门后台研发要求：计算机基础基本的数据结构和算法需要理解操作系统原理需要理解, 推荐《深入理解计算机系统》编译原…