分类：Spark

[翻译]Spark Struct Streaming设计文档

介绍通过过去三年里部署、运维Spark Streaming的积累，我们在Catalyst和DataFrames的基础上重新架构了绰号为“Struct Streaming”的实时计算项目。语义我们提出来一个简单的模型…

概述 BlockManager是spark自己的存储系统，RDD-Cache、 Shuffle-output、broadcast 等的实现都是基于BlockManager来实现的，BlockManager也是分布式结构，…

1、scala 语言有什么特点，相比java有什么优点? 2、什么是Scala的伴生类和伴生对象? 3、spark有什么特点，处理大数据有什么优势? 4、Spark技术栈有哪些组件，每个组件都有什么功能，适合什么应用场景…

RDD编程 RDD创建：第一种：读取一个外部数据集。比如，从本地文件加载数据集，或者从HDFS文件系统从文件系统中加载数据创建RDD 从本地加载： scala> val lines = sc.textFile(…

在尝试Spark + MongoDB过程中，总是遇到Cursor xxxxx not found错误，尝试加入keep_alive_ms 和 pipeline 也不能解决问题。目前总数据量在10000条左右，从Mon…

安装spark前先安装scala 然后下载spark-1.6.3-bin-without-hadoop.tgz 解压到/usr/local/spark-1.6.3-bin-without-hadoop 配置环境变量 su…

CombineByKey 基于键聚合这是最基本的聚合操作, 很多封装的函数都是基于它, 但能用更方便的函数就不要使用它. package cn.zb; import lombok.extern.slf4j.Slf4j;…

深度剖析Spark分布式执行原理

目前Spark的最新版本是2.3.0，更新了Spark streaming对接Kafka的API，但是最新的API仍属于实验阶段，正式版本可能会有变化，本文主要介绍2.3.0的API如何使用。 This version …

这篇文章将带大家一起学习Spark中DataFrame的基本操作。 1、创建DataFrame 本文所使用的DataFrame是通过读取mysql数据库获得的，代码如下: val spark = SparkSession…

Spark2.x+Python大数据机器学习视频课程课程学习地址：http://www.xuetuwuyou.com/course/303 课程出自学途无忧网：http://www.xuetuwuyou.com 讲师：…

摘自：http://blog.csdn.net/zengchen__acmer/article/details/52063908 最近一直在写Spark 相关的项目，但是以前从没有接触过spark 相关的东西，只能是…