介绍 通过过去三年里部署、运维Spark Streaming的积累,我们在Catalyst和DataFrames的基础上重新架构了绰号为“Struct Streaming”的实时计算项目。 语义 我们提出来一个简单的模型…
分类:Spark
[spark] BlockManager 解析
概述 BlockManager是spark自己的存储系统,RDD-Cache、 Shuffle-output、broadcast 等的实现都是基于BlockManager来实现的,BlockManager也是分布式结构,…
Spark常见面试题
1、scala 语言有什么特点,相比java有什么优点? 2、什么是Scala的伴生类和伴生对象? 3、spark有什么特点,处理大数据有什么优势? 4、Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景…
Spark 编程基础
RDD编程 RDD创建: 第一种:读取一个外部数据集。比如,从本地文件加载数据集,或者从HDFS文件系统 从文件系统中加载数据创建RDD 从本地加载: scala> val lines = sc.textFile(…
碰壁Spark + Mongodb
在尝试Spark + MongoDB过程中,总是遇到Cursor xxxxx not found错误, 尝试加入keep_alive_ms 和 pipeline 也不能解决问题。 目前总数据量在10000条左右,从Mon…
Spark的安装
安装spark前先安装scala 然后下载spark-1.6.3-bin-without-hadoop.tgz 解压到/usr/local/spark-1.6.3-bin-without-hadoop 配置环境变量 su…
spark PairRDD 键值对操作
CombineByKey 基于键聚合 这是最基本的聚合操作, 很多封装的函数都是基于它, 但能用更方便的函数就不要使用它. package cn.zb; import lombok.extern.slf4j.Slf4j;…
深度剖析Spark分布式执行原理
深度剖析Spark分布式执行原理
Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher)
目前Spark的最新版本是2.3.0,更新了Spark streaming对接Kafka的API,但是最新的API仍属于实验阶段,正式版本可能会有变化,本文主要介绍2.3.0的API如何使用。 This version …
Spark-SQL之DataFrame基本操作
这篇文章将带大家一起学习Spark中DataFrame的基本操作。 1、创建DataFrame 本文所使用的DataFrame是通过读取mysql数据库获得的,代码如下: val spark = SparkSession…
【学途无忧网】Spark2.x+Python大数据机器学习视频课程
Spark2.x+Python大数据机器学习视频课程 课程学习地址:http://www.xuetuwuyou.com/course/303 课程出自学途无忧网:http://www.xuetuwuyou.com 讲师:…
SPARK java.io.NotSerializableException 异常处理
摘自:http://blog.csdn.net/zengchen__acmer/article/details/52063908 最近一直在写Spark 相关的项目, 但是以前从没有接触过spark 相关的东西, 只能是…