一.集成效果 1.hive与hbase集成:hive能够同步hbase的表,在hive中对表进行操作可以改变hbase的表,在hbase中插入数据,hive表也会同步数据 2.spark与hive集成:spark读取hi…
分类:Spark
IntelliJ IDEA Community Edition 14.1.4下 javafx scenebuilder的使用
官网对应的配置文档:https://www.jetbrains.com/idea/help/preparing-for-javafx-application-development.html Java FX Scene …
spark学习笔记(RDD)
1.RDD是一个基本的抽象,操作RDD就像操作一个本地集合一样,降低了编程的复杂度 RDD的算子分为两类,一类是Transformation(lazy),一类是Action(触发任务执行) RDD不存真正要计算的数据,而…
Spark中使用Dataset的groupBy/agg/join/broadcast hasjoin/sql broadcast hashjoin示例(java api)
Dataset的groupBy agg示例 Dataset<Row> resultDs = dsParsed .groupBy("enodeb_id", "ecell_id") .agg( functions…
spark 机器学习 - 校招准备
看源码, 对spark mllib包的一些笔记 Spark core发展 RDD 弹性分布式数据集 编译时类型安全,编译时就能检查出类型错误 面向对象的编程风格,直接通过类名点的方式来操作数据 序列化和反序列化的性能开销…
ubuntu下安装和配置hadoop+spark集群记录
先前东看一个教程,西看一个教程,一直没有安装成功。后来搜到厦大林子雨老师团队的大数据教程,真是相当得棒。我是按照这篇博客《Spark 2.0分布式集群环境搭建(Python版)》进行安装和配置的。事毕,总结记录一下。 1…
Spark MLlib 之 StringIndexer、IndexToString使用说明以及源码剖析
最近在用Spark MLlib进行特征处理时,对于StringIndexer和IndexToString遇到了点问题,查阅官方文档也没有解决疑惑。无奈之下翻看源码才明白其中一二…这就给大家娓娓道来。 更多内容…
Cloudera平台参考部署架构
Cloudera平台软件体系结构 Cloudera的软件体系结构中包含了以下模块:系统部署和管理,数据存储,资源管理,处理引擎,安全,数据管理,工具库以及访问接口。一些关键组件的角色信息: 硬件配置 集群服务器按照节点承…
(三)Spark Streaming 算子梳理 — transform算子
目录 天小天:(一)Spark Streaming 算子梳理 — 简单介绍streaming运行逻辑 天小天:(二)Spark Streaming 算子梳理 — flatMap和mapPartitions 天小天:(三)…
随机森林算法简介及Spark MLlib调用
随机森林分类器: 算法简介: 随机森林是决策树的集成算法。随机森林包含多个决策树来降低过拟合的风险。随机森林同样具有易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。 随机森林分别训练一系列的决策树,所以…
Spark SQL的Parquet那些事儿
Parquet是一种列式存储格式,很多种处理引擎都支持这种存储格式,也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件,并且对parquet文件的schema可以自动解析。当Spar…
Spark Structured Streaming框架(3)之数据输出源详解
Spark Structured streaming API支持的输出源有:Console、Memory、File和Foreach。其中Console在前两篇博文中已有详述,而Memory使用非常简单。本文着重介绍F…