分类：Spark

20个Spark实战项目列表

前言： Spark 概念 Spark是UC Berkeley AMP lab开发的一个集群计算的框架，类似于Hadoop，但有很多的区别（详细见推荐阅读材料）。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次…

【SDCC 2016】直击汤森路透、苏宁、京东、腾讯、Databricks的Spark实战技术分享|PPT下载 – 极客头条 – CSDN.NET http://geek.csdn.net/new…

关闭spark streaming的时候需要在跑完一个batch之后关闭，不然就有可能会有丢失数据或者重复数据的风险。在spark1.4之后有一个配置开关 .set("spark.streaming.stopGrace…

RDD是什么？ RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布…

在对数据进行统计分析时，如果对指标进行聚合运算，而待查询的字段中还包含了维度，则原则上我们还需要按照维度字段进行分组。倘若这个聚合运算为sum函数，分组之后就相当于分类汇总了。有一种特殊场景是我们对指标执行了sum聚合，…

motivation 动机 The various 2G limit in Spark. Spark中存在的各种2G限制问题. When reading the data block is stored in the h…

pyspark 使用总结配置 SparkContext from pyspark import SparkContext from pyspark import SparkConf # SparkContext配置初始…

上一篇文章我们谈到，DAGScheduler将Job划分成由Stage组成的DAG后，就根据Stage的具体类型来生成ShuffleMapTask和ResultTask，然后使用TaskSet对其进行封装，最后调用Tas…

# 【淬火重炼，岂止于快】超越XGBoost和Spark的Angel开源l — 经过漫长的准备和打磨，新一代的Angel终于开源了。Github地址：[https://github.com/tencent/a…

结合自身面试经历，包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类：一、spark相关 1.Spark的Shuffle原理及调优？ 2.hadoop和spark使用场景？ 3.spark如…

本篇结构： CoarseGrainedExecutorBackend 接收 LaunchTask 消息 Executor 执行 launchTask 执行 Task 的 run 方法一、CoarseGrainedExe…

1,前言网上很多别人写的都是基于spark1的版本，因为spark2的版本差异还是有点的，我打算研究一下Spark2作业的提交过程 2,spark提交方式以及参数 ./bin/spark-submit\ &…