第一周 Spark生态系统概述与编程模型 Spark生态系统概述 回顾Hadoop MapReduce Spark运行模式 RDD Spark运行时模型简介 缓存策略介绍 transformation action li…
分类:Spark
Spark GC 高级优化
在java heap 空间中会分成两个区域 Young 和Old,Young部分主要存储的是 存活时间短的对象;而Old 部分主要保存的是存在时间更长对象 Young 部分又可以细分成三部分,分别为 Eden、Survi…
Spark 2. RDDs 并行集合 外部数据集
可伸缩的分布式数据集 Resilient Distributed Datasets (RDDs) 原文地址: http://spark.apache.org/docs/latest/programming-guide.h…
Spark本地: Scala实例
1. 目的 在Spark提供的Scala环境, 编写实例, 测试Scala语法 2. 实例 2.1 读取本地文件 数据读取与保存 # test.txt如下: abcd heihei heihei # 读取文件, 并对每行…
Windows上搭建Standalone模式的Spark环境
Java 安装Java8,设置JAVA_HOME,并添加 %JAVA_HOME%\bin 到环境变量PATH中 E:\java -version java version "1.8.0_60" Java(TM) SE R…
spark最新版本搭配
Get Spark from the downloads page of the project website. This documentation is for Spark version 2.2.0. Spark…
Spark Structured Streaming 与Kafka的整合
Structured Streaming 与0.10及以上版本的Kafka整合来对Kafka中的读书进行读取和写入操作。 Linking 对于使用SBT/Maven定义的Scala/Java应用程序,请将你的应用程序与如…
spark-streaming-kafka之createDirectStream模式
完整工程用例 最近一直在用directstream方式消费kafka中的数据,特此总结,整个代码工程分为三个部分 一. 完整工程代码如下(某些地方特意做了说明, 这个代码的部分函数直接用的是spark-streaming…
Spark 6. RDD 持久化
RDD 持久化 原文地址: http://spark.apache.org/docs/latest/programming-guide.html 仅限交流使用,转载请注明出处。如有错误,欢迎指出! Henvealf/译 …
Spark Streaming 中使用c3p0连接池操作mysql数据库
在Spark Streaming的应用程序中,有时候需要将计算结果保存到数据库中,为了高效这里使用批量插入,结合c3po连接池,说明一下使用方法。 数据计算完成后,在foreachRDD中批量插入数据,因为是针对每一个p…
【Spark Java API】Transformation(2)—sample、randomSplit
sample 官方文档描述: Return a sampled subset of this RDD. 返回抽样的样本的子集。 函数原型: withReplacement can elements be sampled …
Spark入门指南 II - 使用IntelliJ IDEA开发
文章也同时在个人博客 http://kimihe.com/更新 引言 “Apache Spark™ is a fast and general engine for large-scale da…