标签：spark

Spark 下操作 HBase（1.0.0 新 API）

HBase经过七年发展，终于在今年2月底，发布了 1.0.0 版本。这个版本提供了一些让人激动的功能，并且，在不牺牲稳定性的前提下，引入了新的API。虽然 1.0.0 兼容旧版本的 API，不过还是应该尽早地来熟悉下新版…

基本概念 What’s DataFrame A DataFrame is equivalent to a relational table in Spark SQL [1]。 DataFrame的前身是Sch…

// Kylin 与 Spark SQL的差异性 – 惊帆的BLOG http://www.bucry.com/archives/1893.html Kylin在目前成为大数据平台的神兽，其主要的逻辑的是针对…

参考资料：spark MLlib 官方文档 package lean_mllib //import breeze.linalg.PCA import org.apache.spark.ml.feature._ impor…

上篇博文《深入理解Spark 2.1 Core （六）：资源调度的实现与源码分析》中我们讲解了，AppClient和Executor是如何启动，如何为逻辑上与物理上的资源调度，以及分析了在Spark1.4之前逻辑上资源调…

一、按点对比对比点 Storm Spark Streaming 实时计算模型纯实时，来一条数据，处理一条数据准实时，对一个时间段内的数据收集起来，作为一个RDD，再处理实时计算延迟度毫秒级秒级吞吐量 are…

2.Spark之于Hadoop 更准确地说，Spark是一个计算框架，而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS，Hadoop更广泛地说还包括在其生态系统上的其他系统，如Hbase、Hive等…

Spark自带的JdbcRDD，只支持Long类型的分区参数，分区必须是一个Long区间。很多情况下，这种方式都不适用。改写Spark JdbcRDD，支持自己定义分区查询条件（转）我对JdbcRDD进行了改写，可支…

一、前言在大数据领域，海量存储与快速检索方面HBase早已有了自己的一席之地。MapReduce计算框架早已对接了HBase，以HBase作为数据源，完成批量数据的读写。而Hive默认底层以MapReduce作为计算引…

目的对给定的莎士比亚文集进行词频统计，求前20个出现频率最高的单词和相应的词频根据停词表排除一些无意义的单词，即停词表中的单词不参与统计环境 IntelliJ IDEA + Maven + Spark_2.1.1 …

学习笔记时间：2017年2月7日使用工具：1. 在办公电脑上安装的Ubuntu虚拟机编程语言：scala val y=x.filter(x => x.split("\\|").length>=5 ).f…

云计算毕竟是一个概念，很多人对于云计算概念很早就耳濡目染，但也只是懂个皮毛，原因在于云计算技术的复杂性。云计算的理念实际很先进，但要实现这些功能需要很多技术做支撑，所以只有对这些技术有所了解，才能真正理解云计算，发现云计…