算法网 - 高质量的算法学习社区

java-spark的各种常用算子的写法

通常写spark的程序用scala比较方便，毕竟spark的源码就是用scala写的。然而，目前java开发者特别多，尤其进行数据对接、上线服务的时候，这时候，就需要掌握一些spark在jav…

前言在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中，我们已经部署好了一个Spark的开发环境。在Spark集群 + Akka + Kafka + Scala 开发(2)…

性能调优相关的原理讲解、经验总结；掌握一整套Spark企业级性能调优解决方案；而不只是简单的一些性能调优技巧。针对写好的spark作业，实施一整套数据倾斜解决方案：实际经验中积累的数据倾斜现象的表现，以及处理后的效果…

spark中，不论spark-shell还是spark-submit，都可以设置memory大小，但是有的同学会发现有两个memory可以设置。分别是driver memory 和executor memory。从名字…

关于PageRank的地位，不必多说。主要思想：对于每个网页，用户都有可能点击网页上的某个链接，例如 A:B,C,D B:A,D C:A D:B,C 由这个我们可以得到网页的转移矩阵 &nb…

Term Meaning Application User program built on Spark. Consists of a driver program and executor…

SparkSession是在使用类型化数据集(或基于非类型化Row-基于DataFrame)数据抽象开发Spark SQL应用程序时创建的首批对象之一。在Spark 2.0中，SparkSession将SQLConte…

最近从Hadoop 1.x 转到Hadoop 2.x 同时将一些java 程序转为Scala的程序将平台上的代码减少了很多，在实施的过程中，开到一些Spark相关的YARN的部署上都是基于之前的Hadoop 1.x的部分…

存储系统 Spark任务需要从一些外部的存储系统加载数据（如：HDFS 或者 HBase），重要的是存储系统要接近Spark系统，我们有如下推荐：（1）如果可能，运行Spark在相同的HDFS节点，最简单…

1 安装JDK 1）进入JDK官网 2）下载JDK安装包 3）配置环境变量，在/etc/profile增加以下代码 JAVA_HOME=/home/hadoop/jdk1.6.0_38 PATH=$JA…

前段时间看spark，看着迷迷糊糊的。最近终于有点头绪，先梳理了一下spark rpc相关的东西，先记录下来。 1，概述个人认为，如果把分布式系统（HDFS, HBASE，SPARK等）比作一个人，那么RP…

checkpoint在spark中主要有两块应用：一块是在spark core中对RDD做checkpoint，可以切断做checkpoint RDD的依赖关系，将RDD数据保存到可靠存储（如HDFS）以便数据恢复；另外…