重要tip
- 项目git地址
- hadoop搭建部分,使用了kiwenlau的hadoop dockefile。
- 注意,hadoop的分布式是基于多机器的,而本github是通过docker来模拟实现的(单机多节点)。其主要目的,是让大家通过看dockerfile和相关shell了解基本的配置和搭建过程。说直白点,本dockerfile就是我认为的搭建流程的最简版。
hadoop,hbase,hive,hue的定位和关系
- Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
- hbase是运行于HDFS文件系统之上的nosql。
- hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。hive映射的表既可以落在hdfs上,也可以落在hbase上。
- hue是支持多种数据库或数据仓库(包括hive)的web界面。
hadoop部署方式
- 单机多节点。(本git的实现结果)
- 多机多节点。
- 鉴于网络特性,对于一类集群,单个机器至多只能存在该类集群的一个节点。
- 因为存在多类集群,那么,单机上可以存在每一类集群的一个节点,即单机上可以存在多个不同类集群的节点。
- 这种可以结合docker进行实现,但这里docker的network得为host类型的模式。
- 真正的分布式,指的是这一种。
搭建步骤。(基本和下面的参考教程的顺序一致,大家可以参考教程其中的细节)
- hadoop
- hbase
- hive
- hive与hbase和hdfs的整合
- hue
- hue与hive的整合
主要参考教程(该部分是我搭建时,参考的教程,基本都是简易版本。)
相关镜像