首先看看出场的角色,第一个是client客户端,用来发起读写请求,读取HDFS上的文件或往HDFS中写文件;第二个是Namenode,唯一的一个,会协调所有客户端发起的请求;第三个是DataNode,负责数据存储,跟Na…
分类:Hadoop
大数据环境搭建--03 Centos7安装hadoop2.8集群
注意:我们将大数据相关组件全部安装在/opt/bigdata目录 1.hadoop2.x 概述 hadoop2中NameNode可以有多个(目前只支持2个)。每一个都有相同的职能。一个是active状态的,一个是stan…
hadoop 学习笔记(4)-- hadoop IO
hadoop 的数据完整性 数据存储或 IO 时可能损坏,需要使用校验和来检查数据完整性(校验和当然也会出错,但是由于校验和数据量很低,所以出错的概率也很低)。常用的校验和有 CRC-32 HDFS 数据完整性 对于每 …
Hadoop实战(2)_虚拟机搭建Hadoop的全分布模式
系列目录: Hadoop实战(1)_阿里云搭建Hadoop2.x的伪分布式环境 建立Linux虚拟机(全节点) 客户机操作系统:CentOS-6.5-x86_64。 网络连接:host-only。Connecet aut…
hadoop HA(high available)集群搭建
这篇文章重现了我自己用七台centos6.7mnimal虚拟机搭建一个ha hadoop集群的过程。(之前配置虚拟机和搭建hadoop集群的文章:虚拟机的配置和Hadoop集群的配置) 环境准备 从以前安装的虚拟机克隆7…
ZooKeeper入门
ZooKeeper是什么 Zookeeper是Hadoop的一个子项目,它是分布式系统中的协调系统,可提供的服务主要有:配置服务、名字服务、分布式同步、组服务等。 我们可以到apache的zookeeper官网看一下介绍…
Sqoop导入HBase,并借助Coprocessor协处理器同步索引到ES
1.环境 Mysql 5.6 Sqoop 1.4.6 Hadoop 2.5.2 HBase 0.98 Elasticsearch 2.3.5 2.安装(略过) 3.HBase Coprocessor实现 HBase Ob…
分布式平台配置:Hadoop+Spark on Yarn
软件环境: Ubuntu 14.04.1 LTS Hadoop: 2.6.4 Scala: 2.11.8 Spark: 1.6.1 Jdk:1.8.0_73 写在前面 本例中的演示均为非 root 权限,所以有些命令行需…
Hadoop重新格式化HDFS的方法
一、记一次“不合格”的方法 这种方法也是网上参考博客得来的,一开始就觉得有问题,后来真的发现了问题。 首先停止已经启动的hadoop: [hadoop@localhost ~]$ stop-all.sh 然后查看hado…
Apache Avro是什么干什么用的(RPC/序列化)
Avro总结(RPC/序列化) Avro(读音类似于[ævrə])是Hadoop的一个子项目, 由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发, Avro是一个…
Zookeeper 集群搭建
目录 集群简介 环境配置描述 搭建步骤 配置参数详解 集群简介 Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储,但是 Zo…
【Hadoop】Ambari 2.4.2源代码编译(原)
登录ambari网站,发现需要下载源代码包,自行编译。参照官方的文档进行编译,有无数的坑,只得在百度其它资源参考之,然后将编译过程记录下来。 1. 准备编译环境 OS: CentOS 7.3.1611 JDK: 8u11…