分类：Spark

集成spark+hive+hbase思路以及遇到的坑

一.集成效果 1.hive与hbase集成:hive能够同步hbase的表,在hive中对表进行操作可以改变hbase的表,在hbase中插入数据,hive表也会同步数据 2.spark与hive集成:spark读取hi…

官网对应的配置文档：https://www.jetbrains.com/idea/help/preparing-for-javafx-application-development.html Java FX Scene …

1.RDD是一个基本的抽象，操作RDD就像操作一个本地集合一样，降低了编程的复杂度 RDD的算子分为两类，一类是Transformation（lazy），一类是Action（触发任务执行） RDD不存真正要计算的数据，而…

Dataset的groupBy agg示例 Dataset<Row> resultDs = dsParsed .groupBy("enodeb_id", "ecell_id") .agg( functions…

看源码, 对spark mllib包的一些笔记 Spark core发展 RDD 弹性分布式数据集编译时类型安全，编译时就能检查出类型错误面向对象的编程风格，直接通过类名点的方式来操作数据序列化和反序列化的性能开销…

先前东看一个教程，西看一个教程，一直没有安装成功。后来搜到厦大林子雨老师团队的大数据教程，真是相当得棒。我是按照这篇博客《Spark 2.0分布式集群环境搭建(Python版)》进行安装和配置的。事毕，总结记录一下。 1…

最近在用Spark MLlib进行特征处理时，对于StringIndexer和IndexToString遇到了点问题，查阅官方文档也没有解决疑惑。无奈之下翻看源码才明白其中一二…这就给大家娓娓道来。更多内容…

Cloudera平台软件体系结构 Cloudera的软件体系结构中包含了以下模块：系统部署和管理，数据存储，资源管理，处理引擎，安全，数据管理，工具库以及访问接口。一些关键组件的角色信息：硬件配置集群服务器按照节点承…

目录天小天：（一）Spark Streaming 算子梳理 — 简单介绍streaming运行逻辑天小天：（二）Spark Streaming 算子梳理 — flatMap和mapPartitions 天小天：（三）…

随机森林分类器：算法简介：随机森林是决策树的集成算法。随机森林包含多个决策树来降低过拟合的风险。随机森林同样具有易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。随机森林分别训练一系列的决策树，所以…

Parquet是一种列式存储格式，很多种处理引擎都支持这种存储格式，也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件，并且对parquet文件的schema可以自动解析。当Spar…

　　Spark Structured streaming API支持的输出源有：Console、Memory、File和Foreach。其中Console在前两篇博文中已有详述，而Memory使用非常简单。本文着重介绍F…