分类：Spark

Spark学习

第一周 Spark生态系统概述与编程模型 Spark生态系统概述回顾Hadoop MapReduce Spark运行模式 RDD Spark运行时模型简介缓存策略介绍 transformation action li…

在java heap 空间中会分成两个区域 Young 和Old，Young部分主要存储的是存活时间短的对象；而Old 部分主要保存的是存在时间更长对象 Young 部分又可以细分成三部分，分别为 Eden、Survi…

可伸缩的分布式数据集 Resilient Distributed Datasets (RDDs) 原文地址： http://spark.apache.org/docs/latest/programming-guide.h…

1. 目的在Spark提供的Scala环境, 编写实例, 测试Scala语法 2. 实例 2.1 读取本地文件数据读取与保存 # test.txt如下: abcd heihei heihei # 读取文件, 并对每行…

Java 安装Java8，设置JAVA_HOME，并添加 %JAVA_HOME%\bin 到环境变量PATH中 E:\java -version java version "1.8.0_60" Java(TM) SE R…

Get Spark from the downloads page of the project website. This documentation is for Spark version 2.2.0. Spark…

Structured Streaming 与0.10及以上版本的Kafka整合来对Kafka中的读书进行读取和写入操作。 Linking 对于使用SBT/Maven定义的Scala/Java应用程序，请将你的应用程序与如…

完整工程用例最近一直在用directstream方式消费kafka中的数据，特此总结，整个代码工程分为三个部分一. 完整工程代码如下(某些地方特意做了说明, 这个代码的部分函数直接用的是spark-streaming…

RDD 持久化原文地址： http://spark.apache.org/docs/latest/programming-guide.html 仅限交流使用，转载请注明出处。如有错误，欢迎指出！ Henvealf/译 …

在Spark Streaming的应用程序中，有时候需要将计算结果保存到数据库中，为了高效这里使用批量插入，结合c3po连接池，说明一下使用方法。数据计算完成后，在foreachRDD中批量插入数据，因为是针对每一个p…

sample 官方文档描述： Return a sampled subset of this RDD. 返回抽样的样本的子集。函数原型： withReplacement can elements be sampled …

文章也同时在个人博客 http://kimihe.com/更新引言 “Apache Spark™ is a fast and general engine for large-scale da…