Hadoop 说起 hadoop ,可能现在许多人都不会陌生,但读就不一定读的对了。 Hadoop的发音是 [hædu:p]。 Hadoop这个名字是Hadoop项目创建者Doug Cutting 的儿子的一只玩具的名字…
分类:Spark
Spark的安装(基于Mac)
一、简介 1.1内容 在mac电脑上成功安装spark(不用预先安装hadoop),并在jupyter上使用pyspark来操作spark。 1.2 知识点 jdk的安装 spark和pyspark的安装 虚拟环境的内核…
Spark运行机制与原理详解目录
https://github.com/JerryLead/SparkInternals Spark Internals Spark Version: 1.0.2 Doc Version: 1.0.2.0 Authors …
Spark Pair RDD基本操作
Pair RDD基本操作 虽然大部分Spark的RDD操作都支持所有种类的对象,但是有少部分特殊的操作只能作用于键值对类型的RDD。这类操作中最常见的就是分布的shuffle操作,比如将元素通过键来分组或聚集计算。在Py…
Spark入门教程(五)创建弹性分布式数据集Rdd以及Transformation操作
本文全部手写原创,请勿复制粘贴、转载请注明出处,谢谢配合! 什么是弹性分布式数据集Rdd? 概念:RDD(Resilient Distributed Datasets)简单来说,就是Spark中元素的集合,如数组、集合、…
『 Spark 』5. 这些年,你不能错过的 spark 学习资源
『 Spark 』5. 这些年,你不能错过的 spark 学习资源 – 简书 http://www.jianshu.com/p/59c54b46577b 原文链接:『 Spark 』5. 这些年,你不能错过的…
spark实时处理hdfs流数据
项目说明 Spark构建一个实时数据处理及展示系统 流数据数据处理:scala 调用spark-SQL:python 如图: Paste_Image.png 问题总结 1、spark-streaming流处理 2、sbt…
spark-2.2.0安装和部署——集群学习日记
前言 在安装后hadoop之后,接下来需要安装的就是Spark。 scala-2.11.7下载与安装 具体步骤参见上一篇博文 Spark下载 为了方便,我直接是进入到了/usr/local文件夹下面进行下载spark-2…
Spark编程快速入门
本教程基于Spark官网的快速入门教程改编而来,官方文档和中文翻译的传送门见最下方。(注意,实际情况可能因为版本不同等原因有所不同) 如果对本文中的一些名词感到疑惑,可以看另外一篇入门文章:五分钟大数据:Spark入门 …
大数据入门课程:Hadoop和spark的性能比较
大数据课程,一门看似很专业实际很复杂的学科,备受追捧。因为大数据的就业前景真的很诱惑人,单单是就业薪资就能让人趋之若鹜。今天大数据讲师给大家分享的技术知识是大数据入门课程之Hadoop和spark的性能比较。  …
spark stream
Dstream 是一个 rdd的队列。 当spark stream 窗口函数的间隔不是batchDuration的倍数时会报错。 Exception in thread "main" java.lang.Exceptio…
Spark系列(十)TaskSchedule工作原理
Spark系列(十)TaskSchedule工作原理 – 会飞的纸盒 – 博客园 http://www.cnblogs.com/jianyuan/p/Spark%E7%B3%BB%E5%88%97…