标签：集群

使用Docker搭建Hadoop集群环境

最近一直在研究大数据，这里记录一下自己创建Docker集群并且使用ansible搭建Hadoop大数据平台的过程，其中主要借鉴了一下网上的一篇较为全面的文章，不过到时遇到蛮多坑的，所以将那篇文章做了改动，添加或者减少一些…

首先下载HBase，这里下载的是HBase-1.2.1。将安装包解压到指定的目录，然后对HBase进行配置。因为HBase依赖Hadoop，所以要进行一个整合。首先把Hadoop中的hdfs-site.xml和cor…

image.png 数据迁移往往是数据运维经常会用到的事情，就像 pc重装电脑，把C盘的文件转移到E盘一样，不过数据迁移在生产环境当中往往是跨网络跨集群传输文件，要保证文件不丢失不乱码不重复，文件的…

概述 Zookeeper字面上理解就是动物管理员，是大数据框架Hadoop生态圈中的一个服务中间件，Hadoop生态圈中很多开源项目使用动物命名，那么需要一个管理员来管理这些“动物”。他负责分布式应用程序协调的工作。 H…

设置Hadoop环境在Tools -> Hadoop Distribution 中选择 “HortonWorks HDP 2.5.x”。复制core-site.xml文件复制 Hadoop 环境下的的 cor…

问题描述我所在的部门是BI，平时业务计算有两个Hadoop集群A和B。其中一个集群A因为大部分业务线计算都在上面，最近开始经常出问题，并且计算变慢。为了进行热备，决定把A集群的计算迁到B上一份，新抽取的数据可以在A和B…

一、环境部署 hadoop集群2.7.1 zookeerper集群 kafka集群：kafka_2.11-0.10.0.0 spark集群：spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面…

Spark学习笔记 Data Source->Kafka->Spark Streaming->Parquet->Spark SQL(SparkSQL可以结合ML、GraphX等)->Parq…

本文将介绍spark在windows下本地模式的搭建 Spark的运行模式基本可以分为两种：本地模式即Driver程序只在本机运行集群模式即Dirver程序会在集群中运行，具体到集群模式，又可以分为spark集群…

一、环境部署 hadoop集群2.7.1 flume 1.7.0 spark集群：spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面几篇文章。不再赘述三台机器：master，slave1,…

本文展示了在之前搭建的Hadoop分布式集群的基础上如何搭建Spark分布式集群环境一、已有环境 ubuntu 14.04 hadoop 2.7.1 集群安装参考三台机器 master、slave1、slave2 二…

适用人群正在使用spark的开发者正在学习docker或者spark的开发者准备工作安装docker (可选)下载java和spark with hadoop Spark集群 Spark运行时架构图 Spark …