算法网 - 高质量的算法学习社区

spark-2.2.0安装和部署——集群学习日记

前言在安装后hadoop之后，接下来需要安装的就是Spark。 scala-2.11.7下载与安装具体步骤参见上一篇博文 Spark下载为了方便，我直接是进入到了/usr/local文件夹下面进行下载spark-2…

本教程基于Spark官网的快速入门教程改编而来，官方文档和中文翻译的传送门见最下方。（注意，实际情况可能因为版本不同等原因有所不同）如果对本文中的一些名词感到疑惑，可以看另外一篇入门文章：五分钟大数据：Spark入门 …

大数据课程，一门看似很专业实际很复杂的学科，备受追捧。因为大数据的就业前景真的很诱惑人，单单是就业薪资就能让人趋之若鹜。今天大数据讲师给大家分享的技术知识是大数据入门课程之Hadoop和spark的性能比较。 …

Dstream 是一个 rdd的队列。当spark stream 窗口函数的间隔不是batchDuration的倍数时会报错。 Exception in thread "main" java.lang.Exceptio…

Spark系列(十)TaskSchedule工作原理 – 会飞的纸盒 – 博客园 http://www.cnblogs.com/jianyuan/p/Spark%E7%B3%BB%E5%88%97…

流式计算概述常规计算引擎分类批处理 • 高吞吐，低延迟 • 面向静态数据集合的处理 • 分钟甚至小时级别延迟 • 比如MR, Spark 流式计算 • 面向行级别数据处理 • 毫秒级延迟 • 比如storm 流式计算…

转自：hadoop2.7 动态新增节点和删除节点转自：spark集群动态增加worker节点 hadoop安装过程中包括yarn的节点，hadoop有多个节点，spark也是多个节点，也区分master和slave

本文基于spark源码2.11 1. 前言 shuffle是spark job中一个重要的阶段，发生在map和reduce之间，涉及到map到reduce之间的数据的移动，以下面一段wordCount为例： def ma…

目的:jieba + python + spark + kafka + streaming 材料…. image.png sudo gedit/ect/profile # add jdk export JAV…

文章地址：http://www.haha174.top/article/details/256658 根据hello world 的例子介绍一个什么是宽依赖和窄依赖。 [图片上传失败…(image-2d03e…

1. SparkSession sparkSession可以视为sqlContext和hiveContext以及StreamingContext的结合体，这些Context的API都可以通过sparkSession使用。…