Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。  …
分类:Spark
[Spark]-集群与日志监控
1.Spark的集群模式 1.1 集群中的组件 1.1.1 driver 一个Spark应用本身在集群中是作为一个独立进程运行的.它在main程序中通过SparkContext来进行协调.这个独立…
二分K均值算法原理及Spark MLlib调用实例(Scala/Java/Python)
二分K均值算法 算法介绍: 二分K均值算法是一种层次聚类算法,使用自顶向下的逼近:所有的观察值开始是一个簇,递归地向下一个层级分裂。分裂依据为选择能最大程度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇。以此进行下…
Spark原理
一、spark特点 1、spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。因此运行spark的机器应该尽量的大内存,如96G以上。 2、spark所有操作均基于RDD,操作主要分成2大类:tra…
Spark RDD依赖的深度优先搜索
1 Overview 最近在刷刷算法题,看到经典的树搜索的算法,正巧之前记得 Spark RDD 中有一处利用 DFS 来判断 RDD 依赖关系的代码,因此专门拿出来分析一下。 2 Code /** * Return t…
个性化推荐系统(一)---今日头条等的内容划分、分类
这篇文章搞头条号、运营知乎等流量的兄弟们可以看看,可以让你了解到你的文章是怎么被推荐的、通过很好的配合头条、知乎等的技术架构、机制可以增加你文章的曝光。 今日头条以前进入各大app的流量主要被几部分刮分,一个是app内搜…
Spark笔记:复杂RDD的API的理解(下)
本篇接着谈谈那些稍微复杂的API。 1) flatMapValues:针对Pair RDD中的每个值应用一个返回迭代器的函数,然后对返回的每个元素都生成一个对应原键的键值对记录 这个方法我最开始接触…
Spark算子讲解(一)
1:Zip算子 def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)] 将两个RDD做zip操作,如果当两个RDD分区数目不一样的话或每一个分…
分布式计算框架Spark
Apache Spark是一个开源分布式运算框架,最初是由加州大学柏克莱分校AMPLab所开发。 Hadoop MapReduce的每一步完成必须将数据序列化写到分布式文件系统导致效率大幅降低。Spark尽可能地在内存上…
Java:List集合内的对象进行排序
List集合中的对象进行排序,除了for外,还有java的Collections对象来对摸个集合进行排序的用法。 比如说我有一个List集合,集合元素为: public class TaskAutoExecutePlan…
spark基本概念
我们知道Spark总是以集群的方式运行的,Standalone的部署方式是集群方式中最为精简的一种(另外的是Mesos和Yarn)。Standalone模式中,资源调度是自己实现的,是MS架构的集群模式,故存在单点故障问…
Spark:将DataFrame写入Mysql
Spark将DataFrame进行一些列处理后,需要将之写入mysql,下面是实现过程 1.mysql的信息 mysql的信息我保存在了外部的配置文件,这样方便后续的配置添加。 1 //配置文件示例: 2 [hdfs@i…