前言: Spark 概念 Spark是UC Berkeley AMP lab开发的一个集群计算的框架,类似于Hadoop,但有很多的区别(详细见推荐阅读材料)。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次…
标签:spark
【SDCC 2016】直击汤森路透、苏宁、京东、腾讯、Databricks的Spark实战技术分享|PPT下载
【SDCC 2016】直击汤森路透、苏宁、京东、腾讯、Databricks的Spark实战技术分享|PPT下载 – 极客头条 – CSDN.NET http://geek.csdn.net/new…
关闭spark streaming
关闭spark streaming的时候需要在跑完一个batch之后关闭,不然就有可能会有丢失数据或者重复数据的风险。 在spark1.4之后有一个配置开关 .set("spark.streaming.stopGrace…
Spark RDD Map Reduce 基本操作
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布…
Spark中进行聚合时的特殊场景
在对数据进行统计分析时,如果对指标进行聚合运算,而待查询的字段中还包含了维度,则原则上我们还需要按照维度字段进行分组。倘若这个聚合运算为sum函数,分组之后就相当于分类汇总了。有一种特殊场景是我们对指标执行了sum聚合,…
Spark中存在的各种2G限制
motivation 动机 The various 2G limit in Spark. Spark中存在的各种2G限制问题. When reading the data block is stored in the h…
Spark 使用笔记
pyspark 使用总结 配置 SparkContext from pyspark import SparkContext from pyspark import SparkConf # SparkContext配置初始…
大数据面试题汇总
结合自身面试经历,包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类: 一、spark相关 1.Spark的Shuffle原理及调优? 2.hadoop和spark使用场景? 3.spark如…
spark-submit 提交源码过程研究
1,前言 网上很多别人写的都是基于spark1的版本,因为spark2的版本差异还是有点的,我打算研究一下Spark2作业的提交过程 2,spark提交方式以及参数 ./bin/spark-submit\ &…
spark源码中为什么有java scala python代码
新手很迷茫的一个问题,spark源码中为什么有java scala python代码 当看过源码就会发现,spark框架虽然是scala实现的,但是涉及到内存处理,网络,并发,磁盘io等计算机底层实现还是选择了java实…
Spark Streaming Crash 如何保证Exactly Once Semantics
这篇文章只是为了阐述Spark Streaming 意外Crash掉后,如何保证Exactly Once Semantics。本来这个是可以直接给出答案的,但是我还是啰嗦的讲了一些东西。 前言 其实这次写Spark St…
Windows下使用Intellij 搭建Spark开发环境
准备工作# 安装JDK 安装scala 2.10.* 下载Intellij IDEA 下载 Spark Pre-build for hadoop 2.6 and later. http://spark.apache.or…