标签：spark

Spark入门指南 II - 使用IntelliJ IDEA开发

文章也同时在个人博客 http://kimihe.com/更新引言 “Apache Spark™ is a fast and general engine for large-scale da…

一个Executor对应一个JVM进程。从Spark的角度看，Executor占用的内存分为两部分：ExecutorMemory和MemoryOverhead。其中，ExecutorMemory为JVM进程的Java堆…

前言今天朋友圈有篇【阿里技术】发的文章，说Blink的性能如何强悍，功能现在也已经比较完善。譬如： Blink 在 TPC-DS 上和 Spark 相比有着非常明显的性能优势，而且这种性能优势随着数据量的增加而变得越来…

将spark作业提交到yarn上执行 spark仅仅作为一个客户端 ./spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \…

前言 spark应用程序的调度体现在两个地方，第一个是Yarn对spark应用间的调度，第二个是spark应用内（同一个SparkContext）的多个TaskSetManager的调度，这里暂时只对应用内部调度进行分析…

前言最近为了解决Spark2.1的Bug，对Spark的源码做了不少修改，需要对修改的代码做编译测试，如果编译整个Spark项目快的话，也得半小时左右，所以基本上是改了哪个子项目就单独对那个项目编译打包。 Spark官…

1.使用Hive ETL预处理数据方案适用场景：如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀（比如某个 key对应了100万数据，其他key才对应了10条数据），而且业务场景需要频繁使用Spar…

Spark DataSource API 的提出使得各个数据源按规范实现适配，那么就可以高效的利用Spark 的计算能力。典型如Parquet,CarbonData,Postgrep(JDBC类的都OK)等实现。本文则介…

####蔚蓝天空#### 当我们编写好自己的应用application后，打JAR包，放入一个spark集群节点上执行：spark-submit…等角本来执行application时，（其实我们之前的提交模式…

在数据分析领域中，没有人能预见所有的数据运算，以至于将它们都内置好，一切准备完好，用户只需要考虑用，万事大吉。扩展性是一个平台的生存之本，一个封闭的平台如何能够拥抱变化？在对数据进行分析时，无论是算法也好，分析逻辑也罢，…

背景接触SparkSQL不久，查找了些别人的资料，感觉对整个Spark HiveThriftServer2流程讲的糊里糊涂的，觉得需要从Beeline连接HiveThriftServer2开始，梳理下执行SQL的流程。…

Spark-shell启动与退出启动在spark的bin目录中启动： ./spark-shell 进入spark shell中退出在scala> 中输入： :quit 退出（前面有个冒号） Scala基础 …