HBase经过七年发展,终于在今年2月底,发布了 1.0.0 版本。这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API。虽然 1.0.0 兼容旧版本的 API,不过还是应该尽早地来熟悉下新版…
标签:spark
Scala - DataFrame
基本概念 What’s DataFrame A DataFrame is equivalent to a relational table in Spark SQL [1]。 DataFrame的前身是Sch…
Kylin 与 Spark SQL的差异性
// Kylin 与 Spark SQL的差异性 – 惊帆的BLOG http://www.bucry.com/archives/1893.html Kylin在目前成为大数据平台的神兽,其主要的逻辑的是针对…
Spark-MLlib-特征抽取
参考资料:spark MLlib 官方文档 package lean_mllib //import breeze.linalg.PCA import org.apache.spark.ml.feature._ impor…
深入理解Spark 2.1 Core (七):任务执行的原理与源码分析
上篇博文《深入理解Spark 2.1 Core (六):资源调度的实现与源码分析》中我们讲解了,AppClient和Executor是如何启动,如何为逻辑上与物理上的资源调度,以及分析了在Spark1.4之前逻辑上资源调…
storm 学习(三)与 spark streaming 比较
一、按点对比 对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫秒级 秒级 吞吐量 are…
Spark与Hadoop对比及优势
2.Spark之于Hadoop 更准确地说,Spark是一个计算框架,而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,Hadoop更广泛地说还包括在其生态系统上的其他系统,如Hbase、Hive等…
改写Spark JdbcRDD,支持自己定义分区查询条件
Spark自带的JdbcRDD,只支持Long类型的分区参数,分区必须是一个Long区间。很多情况下,这种方式都不适用。 改写Spark JdbcRDD,支持自己定义分区查询条件(转) 我对JdbcRDD进行了改写,可支…
启用kerberos的环境下在CDH中使用Spark SQL On HBase
一、前言 在大数据领域,海量存储与快速检索方面HBase早已有了自己的一席之地。MapReduce计算框架早已对接了HBase,以HBase作为数据源,完成批量数据的读写。而Hive默认底层以MapReduce作为计算引…
【Spark】莎士比亚文集词频统计
目的 对给定的莎士比亚文集进行词频统计,求前20个出现频率最高的单词和相应的词频 根据停词表排除一些无意义的单词,即停词表中的单词不参与统计 环境 IntelliJ IDEA + Maven + Spark_2.1.1 …
《spark快速大数据分析》学习笔记
学习笔记 时间:2017年2月7日 使用工具:1. 在办公电脑上安装的Ubuntu虚拟机 编程语言:scala val y=x.filter(x => x.split("\\|").length>=5 ).f…
云计算四大金刚:Spark、Docker、K8S、Mesos
云计算毕竟是一个概念,很多人对于云计算概念很早就耳濡目染,但也只是懂个皮毛,原因在于云计算技术的复杂性。云计算的理念实际很先进,但要实现这些功能需要很多技术做支撑,所以只有对这些技术有所了解,才能真正理解云计算,发现云计…