流式计算概述 常规计算引擎分类 批处理 • 高吞吐,低延迟 • 面向静态数据集合的处理 • 分钟甚至小时级别延迟 • 比如MR, Spark 流式计算 • 面向行级别数据处理 • 毫秒级延迟 • 比如storm 流式计算…
分类:Spark
hadoop/spark节点动态调整
转自:hadoop2.7 动态新增节点和删除节点 转自:spark集群动态增加worker节点 hadoop安装过程中包括yarn的节点,hadoop有多个节点,spark也是多个节点,也区分master和slave
Spark Shuffle Write 和Read
本文基于spark源码2.11 1. 前言 shuffle是spark job中一个重要的阶段,发生在map和reduce之间,涉及到map到reduce之间的数据的移动,以下面一段wordCount为例: def ma…
ubuntu pyspark
目的:jieba + python + spark + kafka + streaming 材料…. image.png sudo gedit/ect/profile # add jdk export JAV…
spark从入门到放弃十二: 深度剖析宽依赖与窄依赖
文章地址:http://www.haha174.top/article/details/256658 根据hello world 的例子介绍一个什么是宽依赖和窄依赖。 [图片上传失败…(image-2d03e…
将代码从 spark 1.x 移植到 spark 2.x
1. SparkSession sparkSession可以视为sqlContext和hiveContext以及StreamingContext的结合体,这些Context的API都可以通过sparkSession使用。…
Spark Streaming中的checkpoint
在编写Spark Streaming 程序的时候,往往需要我们自行设置checkpoint, 那么它要如何设置,作用又是什么呢? 其实, checkpoint的目的是保证长时间运行的任务在意外挂掉之后能够拉起的时候不丢失…
[Kafka]整合到Spark Streaming
整合Kafka到Spark Streaming——代码示例和挑战 – stark_summer的专栏 – 博客频道 – CSDN.NET http://blog.csdn.net/st…
Mac的Hadoop、Spark、Kafka安装
由于Mac上个星期烧了主板,修回来的电脑内容啥也没有了。为了学习和使用,需要再次安装大数据的相关工具,特此记录。 根据自己平时的使用情况,先只安装了Hadoop、Spark、Kafka组件。使用到了brewhome,作为…
Spark Streaming(二)集成Flume数据
Spark Streaming集成Flume有两种方式,分别是基于Push的和基于Pull的,本篇文档参考Spark官网,基于Spark 2.2.0和Flume 1.6.0 Push-based 这种方式是Flume通过…
Shuffle操作原理操作
一、普通的Shuffl操作原理 普通的Shuffle操作原理剖析 二、优化后的Shuffle原理剖析 优化后的Shuffle原理剖析