hadoop生态搭建(包括hbase,hive,hue等)

重要tip

  • 项目git地址
  • hadoop搭建部分,使用了kiwenlau的hadoop dockefile
  • 注意,hadoop的分布式是基于多机器的,而本github是通过docker来模拟实现的(单机多节点)。其主要目的,是让大家通过看dockerfile和相关shell了解基本的配置和搭建过程。说直白点,本dockerfile就是我认为的搭建流程的最简版。

hadoop,hbase,hive,hue的定位和关系

  • Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
  • hbase是运行于HDFS文件系统之上的nosql。
  • hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。hive映射的表既可以落在hdfs上,也可以落在hbase上。
  • hue是支持多种数据库或数据仓库(包括hive)的web界面。

hadoop部署方式

  • 单机多节点。(本git的实现结果)
  • 多机多节点。
    • 鉴于网络特性,对于一类集群,单个机器至多只能存在该类集群的一个节点。
    • 因为存在多类集群,那么,单机上可以存在每一类集群的一个节点,即单机上可以存在多个不同类集群的节点。
    • 这种可以结合docker进行实现,但这里docker的network得为host类型的模式。
    • 真正的分布式,指的是这一种。

搭建步骤。(基本和下面的参考教程的顺序一致,大家可以参考教程其中的细节)

  1. hadoop
  2. hbase
  3. hive
  4. hive与hbase和hdfs的整合
  5. hue
  6. hue与hive的整合

主要参考教程(该部分是我搭建时,参考的教程,基本都是简易版本。)

相关镜像

    原文作者:playwolf719
    原文地址: https://www.jianshu.com/p/5c863dc4c20f
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞