最近一直在研究大数据,这里记录一下自己创建Docker集群并且使用ansible搭建Hadoop大数据平台的过程,其中主要借鉴了一下网上的一篇较为全面的文章,不过到时遇到蛮多坑的,所以将那篇文章做了改动,添加或者减少一些…
标签:集群
HBase安装
首先下载HBase,这里下载的是HBase-1.2.1。将安装包解压到指定的目录,然后对HBase进行配置。 因为HBase依赖Hadoop,所以要进行一个整合。 首先把Hadoop中的hdfs-site.xml和cor…
hadoop 集群 分布式拷贝 distcp
image.png 数据迁移 往往 是数据运维经常会用到的事情,就像 pc重装电脑,把C盘的文件转移到E盘一样,不过 数据迁移 在生产环境当中往往是 跨网络 跨集群 传输 文件,要保证文件不丢失 不乱码 不重复 ,文件的…
Zookeeper
概述 Zookeeper字面上理解就是动物管理员,是大数据框架Hadoop生态圈中的一个服务中间件,Hadoop生态圈中很多开源项目使用动物命名,那么需要一个管理员来管理这些“动物”。他负责分布式应用程序协调的工作。 H…
Kettle 7.1 连接Hadoop集群
设置Hadoop环境 在Tools -> Hadoop Distribution 中选择 “HortonWorks HDP 2.5.x”。 复制core-site.xml文件 复制 Hadoop 环境下的的 cor…
通过hadoop distcp进行集群间数据迁移
问题描述 我所在的部门是BI,平时业务计算有两个Hadoop集群A和B。其中一个集群A因为大部分业务线计算都在上面,最近开始经常出问题,并且计算变慢。为了进行热备,决定把A集群的计算迁到B上一份,新抽取的数据可以在A和B…
spark streaming + kafka +python(编程)初探
一、环境部署 hadoop集群2.7.1 zookeerper集群 kafka集群:kafka_2.11-0.10.0.0 spark集群:spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面…
spark 学习笔记
Spark学习笔记 Data Source->Kafka->Spark Streaming->Parquet->Spark SQL(SparkSQL可以结合ML、GraphX等)->Parq…
Spark Windows 本地模式(LOCAL)搭建指南
本文将介绍spark在windows下本地模式的搭建 Spark的运行模式基本可以分为两种: 本地模式 即Driver程序只在本机运行 集群模式 即Dirver程序会在集群中运行,具体到集群模式,又可以分为spark集群…
spark streaming + flume+python(编程)初探
一、环境部署 hadoop集群2.7.1 flume 1.7.0 spark集群:spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面几篇文章。不再赘述 三台机器:master,slave1,…
Spark On YARN 集群安装部署
本文展示了在之前搭建的Hadoop分布式集群的基础上如何搭建Spark分布式集群环境 一、已有环境 ubuntu 14.04 hadoop 2.7.1 集群安装参考 三台机器 master、slave1、slave2 二…
利用docker快速搭建Spark集群
适用人群 正在使用spark的开发者 正在学习docker或者spark的开发者 准备工作 安装docker (可选)下载java和spark with hadoop Spark集群 Spark运行时架构图 Spark …