分类：Spark

流式计算概述和Spark Streaming tips

流式计算概述常规计算引擎分类批处理 • 高吞吐，低延迟 • 面向静态数据集合的处理 • 分钟甚至小时级别延迟 • 比如MR, Spark 流式计算 • 面向行级别数据处理 • 毫秒级延迟 • 比如storm 流式计算…

转自：hadoop2.7 动态新增节点和删除节点转自：spark集群动态增加worker节点 hadoop安装过程中包括yarn的节点，hadoop有多个节点，spark也是多个节点，也区分master和slave

本文基于spark源码2.11 1. 前言 shuffle是spark job中一个重要的阶段，发生在map和reduce之间，涉及到map到reduce之间的数据的移动，以下面一段wordCount为例： def ma…

目的:jieba + python + spark + kafka + streaming 材料…. image.png sudo gedit/ect/profile # add jdk export JAV…

文章地址：http://www.haha174.top/article/details/256658 根据hello world 的例子介绍一个什么是宽依赖和窄依赖。 [图片上传失败…(image-2d03e…

1. SparkSession sparkSession可以视为sqlContext和hiveContext以及StreamingContext的结合体，这些Context的API都可以通过sparkSession使用。…

在编写Spark Streaming 程序的时候，往往需要我们自行设置checkpoint，那么它要如何设置，作用又是什么呢？其实， checkpoint的目的是保证长时间运行的任务在意外挂掉之后能够拉起的时候不丢失…

整合Kafka到Spark Streaming——代码示例和挑战 – stark_summer的专栏 – 博客频道 – CSDN.NET http://blog.csdn.net/st…

由于Mac上个星期烧了主板，修回来的电脑内容啥也没有了。为了学习和使用，需要再次安装大数据的相关工具，特此记录。根据自己平时的使用情况，先只安装了Hadoop、Spark、Kafka组件。使用到了brewhome，作为…

Spark Streaming集成Flume有两种方式，分别是基于Push的和基于Pull的，本篇文档参考Spark官网，基于Spark 2.2.0和Flume 1.6.0 Push-based 这种方式是Flume通过…

一、普通的Shuffl操作原理普通的Shuffle操作原理剖析二、优化后的Shuffle原理剖析优化后的Shuffle原理剖析