分类：Spark

Spark-MLlib-特征抽取

参考资料：spark MLlib 官方文档 package lean_mllib //import breeze.linalg.PCA import org.apache.spark.ml.feature._ impor…

上篇博文《深入理解Spark 2.1 Core （六）：资源调度的实现与源码分析》中我们讲解了，AppClient和Executor是如何启动，如何为逻辑上与物理上的资源调度，以及分析了在Spark1.4之前逻辑上资源调…

一、按点对比对比点 Storm Spark Streaming 实时计算模型纯实时，来一条数据，处理一条数据准实时，对一个时间段内的数据收集起来，作为一个RDD，再处理实时计算延迟度毫秒级秒级吞吐量 are…

2.Spark之于Hadoop 更准确地说，Spark是一个计算框架，而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS，Hadoop更广泛地说还包括在其生态系统上的其他系统，如Hbase、Hive等…

零、前置知识 Scala Product trait // 所有 products 的基trait，至少包含 [[scala.Product1]] 至 [[scala.Product22]] 及 [[scala.Tupl…

在数据分析中，处理Key，Value的Pair数据是极为常见的场景。譬如说，对Pair数据按照key分组、聚合，又或者更抽象的，则是根据key对value进行fold运算。如果我们对编码的态度有些敷衍，大约会将其分别定…

Spark自带的JdbcRDD，只支持Long类型的分区参数，分区必须是一个Long区间。很多情况下，这种方式都不适用。改写Spark JdbcRDD，支持自己定义分区查询条件（转）我对JdbcRDD进行了改写，可支…

编译 carbondata1.2已经支持hive+presto，carbon生态圈基本健全。基于git checkout到branch-1.2，编译脚本： #/bin/bash mvn -DskipTests clea…

目的对给定的莎士比亚文集进行词频统计，求前20个出现频率最高的单词和相应的词频根据停词表排除一些无意义的单词，即停词表中的单词不参与统计环境 IntelliJ IDEA + Maven + Spark_2.1.1 …

学习笔记时间：2017年2月7日使用工具：1. 在办公电脑上安装的Ubuntu虚拟机编程语言：scala val y=x.filter(x => x.split("\\|").length>=5 ).f…

云计算毕竟是一个概念，很多人对于云计算概念很早就耳濡目染，但也只是懂个皮毛，原因在于云计算技术的复杂性。云计算的理念实际很先进，但要实现这些功能需要很多技术做支撑，所以只有对这些技术有所了解，才能真正理解云计算，发现云计…

问题1：Kafka Topic ISR不全 Leader会跟踪与其保持同步的Replica列表，该列表称为ISR（即in-sync Replica）。如果一个Follower宕机，或者落后太多，Leader将把它从ISR…