参考资料:spark MLlib 官方文档 package lean_mllib //import breeze.linalg.PCA import org.apache.spark.ml.feature._ impor…
分类:Spark
深入理解Spark 2.1 Core (七):任务执行的原理与源码分析
上篇博文《深入理解Spark 2.1 Core (六):资源调度的实现与源码分析》中我们讲解了,AppClient和Executor是如何启动,如何为逻辑上与物理上的资源调度,以及分析了在Spark1.4之前逻辑上资源调…
storm 学习(三)与 spark streaming 比较
一、按点对比 对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫秒级 秒级 吞吐量 are…
Spark与Hadoop对比及优势
2.Spark之于Hadoop 更准确地说,Spark是一个计算框架,而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,Hadoop更广泛地说还包括在其生态系统上的其他系统,如Hbase、Hive等…
Spark Sql 源码剖析(二): TreeNode
零、前置知识 Scala Product trait // 所有 products 的基trait,至少包含 [[scala.Product1]] 至 [[scala.Product22]] 及 [[scala.Tupl…
Spark中的combineByKey
在数据分析中,处理Key,Value的Pair数据是极为常见的场景。譬如说,对Pair数据按照key分组、聚合,又或者更抽象的,则是根据key对value进行fold运算。 如果我们对编码的态度有些敷衍,大约会将其分别定…
改写Spark JdbcRDD,支持自己定义分区查询条件
Spark自带的JdbcRDD,只支持Long类型的分区参数,分区必须是一个Long区间。很多情况下,这种方式都不适用。 改写Spark JdbcRDD,支持自己定义分区查询条件(转) 我对JdbcRDD进行了改写,可支…
CarbonData 1.2.0集成Spark 2.1.0调研
编译 carbondata1.2已经支持hive+presto,carbon生态圈基本健全。 基于git checkout到branch-1.2,编译脚本: #/bin/bash mvn -DskipTests clea…
【Spark】莎士比亚文集词频统计
目的 对给定的莎士比亚文集进行词频统计,求前20个出现频率最高的单词和相应的词频 根据停词表排除一些无意义的单词,即停词表中的单词不参与统计 环境 IntelliJ IDEA + Maven + Spark_2.1.1 …
《spark快速大数据分析》学习笔记
学习笔记 时间:2017年2月7日 使用工具:1. 在办公电脑上安装的Ubuntu虚拟机 编程语言:scala val y=x.filter(x => x.split("\\|").length>=5 ).f…
云计算四大金刚:Spark、Docker、K8S、Mesos
云计算毕竟是一个概念,很多人对于云计算概念很早就耳濡目染,但也只是懂个皮毛,原因在于云计算技术的复杂性。云计算的理念实际很先进,但要实现这些功能需要很多技术做支撑,所以只有对这些技术有所了解,才能真正理解云计算,发现云计…
spark streaming+kafka调优
问题1:Kafka Topic ISR不全 Leader会跟踪与其保持同步的Replica列表,该列表称为ISR(即in-sync Replica)。如果一个Follower宕机,或者落后太多,Leader将把它从ISR…