前言: Spark 概念 Spark是UC Berkeley AMP lab开发的一个集群计算的框架,类似于Hadoop,但有很多的区别(详细见推荐阅读材料)。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次…
分类:Spark
【SDCC 2016】直击汤森路透、苏宁、京东、腾讯、Databricks的Spark实战技术分享|PPT下载
【SDCC 2016】直击汤森路透、苏宁、京东、腾讯、Databricks的Spark实战技术分享|PPT下载 – 极客头条 – CSDN.NET http://geek.csdn.net/new…
关闭spark streaming
关闭spark streaming的时候需要在跑完一个batch之后关闭,不然就有可能会有丢失数据或者重复数据的风险。 在spark1.4之后有一个配置开关 .set("spark.streaming.stopGrace…
Spark RDD Map Reduce 基本操作
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布…
Spark中进行聚合时的特殊场景
在对数据进行统计分析时,如果对指标进行聚合运算,而待查询的字段中还包含了维度,则原则上我们还需要按照维度字段进行分组。倘若这个聚合运算为sum函数,分组之后就相当于分类汇总了。有一种特殊场景是我们对指标执行了sum聚合,…
Spark中存在的各种2G限制
motivation 动机 The various 2G limit in Spark. Spark中存在的各种2G限制问题. When reading the data block is stored in the h…
Spark 使用笔记
pyspark 使用总结 配置 SparkContext from pyspark import SparkContext from pyspark import SparkConf # SparkContext配置初始…
Spark-Core源码精读(12)、Task的提交流程分析
上一篇文章我们谈到,DAGScheduler将Job划分成由Stage组成的DAG后,就根据Stage的具体类型来生成ShuffleMapTask和ResultTask,然后使用TaskSet对其进行封装,最后调用Tas…
【淬火重炼,岂止于快】超越XGBoost和Spark的Angel开源l
# 【淬火重炼,岂止于快】超越XGBoost和Spark的Angel开源l — 经过漫长的准备和打磨,新一代的Angel终于开源了。Github地址:[https://github.com/tencent/a…
大数据面试题汇总
结合自身面试经历,包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类: 一、spark相关 1.Spark的Shuffle原理及调优? 2.hadoop和spark使用场景? 3.spark如…
【Spark】Spark作业执行原理--执行任务
本篇结构: CoarseGrainedExecutorBackend 接收 LaunchTask 消息 Executor 执行 launchTask 执行 Task 的 run 方法 一、CoarseGrainedExe…
spark-submit 提交源码过程研究
1,前言 网上很多别人写的都是基于spark1的版本,因为spark2的版本差异还是有点的,我打算研究一下Spark2作业的提交过程 2,spark提交方式以及参数 ./bin/spark-submit\ &…