基于Docker的Hadoop集群构建 0. 绪论 使用Docker搭建Hadoop技术平台,包括安装Docker、Java、Scala、Hadoop、 Hbase、Spark。 集群共有5台机器,主机名分别为 h01、…
分类:Spark
Spark生态圈
目录 *Spark概述及其特点 *Spark产生背景 *Spark发展历史 *Spark Survey *Spark对比Hadoop *Spark和Hadoop的协作性 No.1 Spark概述及其特点 1、性能强大的分…
ES-Hadoop打通Elasticsearch和Hadoop
介绍 Elasticsearch作为强大的搜索引擎,Hadoop HDFS是分布式文件系统。 ES-Hadoop是一个深度集成Hadoop和ElasticSearch的项目,也是ES官方来维护的一个子项目。Elastic…
Spark Streaming:大规模流式数据处理的新贵
当当当当~ 俺老孙来也~ 之前我们提到了过Spark的内核(感兴趣的同学可以历史回顾一下) 今天来讲讲大规模流式数据处理的新贵 Spark Streaming 提到Spark Streaming,我们不得不说一下BDAS…
Spark MLlib 数据预处理-特征变换(二)
VectorIndexer 算法介绍: VectorIndexer解决数据集中的类别特征Vector。它可以自动识别哪些特征是类别型的,并且将原始值转换为类别指标。它的处理流程如下: 1.获得一个向量类型的输入以及max…
一. Spark在Windows下的环境搭建
由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoo…
spark学习笔记(RDD)
1.RDD是一个基本的抽象,操作RDD就像操作一个本地集合一样,降低了编程的复杂度 RDD的算子分为两类,一类是Transformation(lazy),一类是Action(触发任务执行) RDD不存真正要计算的数据,而…
pyspark学习--dataframe
参考文章:master苏:pyspark系列–pyspark读写dataframe 创建dataframe 1.1 从变量创建 from pyspark.sql import SparkSession spa…
Spark Streaming VS Flink
本文从编程模型、任务调度、时间机制、Kafka 动态分区的感知、容错及处理语义、背压等几个方面对比 Spark Streaming 与 Flink,希望对有实时处理需求业务的企业端用户在框架选型有所启发。本文篇幅较长,建…
Spark Streamming+Kafka提交offset实现有且仅有一次
我的原创地址: Spark Streaming+Kafka提交offset实现有且仅有一次(exactly-once) dongkelun.com 前言Spark Streaming+Kafka提交offset实现有且…
Spark原理详解
Spark是基于内存计算的通用大规模数据处理框架。 Spark快的原因: Spark基于内存,尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle Spark对于反复用到的数据进行了缓存 Spark对于DAG…
Ubuntu 下 PySpark 安装
目录 1、什么是 Apache Spark? 2、spark安装(python版本) 3、在jupyter notebook中使用PySpark 1、什么是 Apache Spark? Apache Spark 是一种用…