前言 在安装后hadoop之后,接下来需要安装的就是Spark。 scala-2.11.7下载与安装 具体步骤参见上一篇博文 Spark下载 为了方便,我直接是进入到了/usr/local文件夹下面进行下载spark-2…
Spark编程快速入门
本教程基于Spark官网的快速入门教程改编而来,官方文档和中文翻译的传送门见最下方。(注意,实际情况可能因为版本不同等原因有所不同) 如果对本文中的一些名词感到疑惑,可以看另外一篇入门文章:五分钟大数据:Spark入门 …
大数据入门课程:Hadoop和spark的性能比较
大数据课程,一门看似很专业实际很复杂的学科,备受追捧。因为大数据的就业前景真的很诱惑人,单单是就业薪资就能让人趋之若鹜。今天大数据讲师给大家分享的技术知识是大数据入门课程之Hadoop和spark的性能比较。  …
spark stream
Dstream 是一个 rdd的队列。 当spark stream 窗口函数的间隔不是batchDuration的倍数时会报错。 Exception in thread "main" java.lang.Exceptio…
Spark系列(十)TaskSchedule工作原理
Spark系列(十)TaskSchedule工作原理 – 会飞的纸盒 – 博客园 http://www.cnblogs.com/jianyuan/p/Spark%E7%B3%BB%E5%88%97…
流式计算概述和Spark Streaming tips
流式计算概述 常规计算引擎分类 批处理 • 高吞吐,低延迟 • 面向静态数据集合的处理 • 分钟甚至小时级别延迟 • 比如MR, Spark 流式计算 • 面向行级别数据处理 • 毫秒级延迟 • 比如storm 流式计算…
hadoop/spark节点动态调整
转自:hadoop2.7 动态新增节点和删除节点 转自:spark集群动态增加worker节点 hadoop安装过程中包括yarn的节点,hadoop有多个节点,spark也是多个节点,也区分master和slave
Spark Shuffle Write 和Read
本文基于spark源码2.11 1. 前言 shuffle是spark job中一个重要的阶段,发生在map和reduce之间,涉及到map到reduce之间的数据的移动,以下面一段wordCount为例: def ma…
ubuntu pyspark
目的:jieba + python + spark + kafka + streaming 材料…. image.png sudo gedit/ect/profile # add jdk export JAV…
spark从入门到放弃十二: 深度剖析宽依赖与窄依赖
文章地址:http://www.haha174.top/article/details/256658 根据hello world 的例子介绍一个什么是宽依赖和窄依赖。 [图片上传失败…(image-2d03e…
将代码从 spark 1.x 移植到 spark 2.x
1. SparkSession sparkSession可以视为sqlContext和hiveContext以及StreamingContext的结合体,这些Context的API都可以通过sparkSession使用。…