201610月学习总结帖(Hadoop入门贴)

      最近一个月在学习Hadoop相关的技术,感谢@程建明学长提供给我的一个学习Hadoop内容的平台——厦门大学数据库实验室(http://dblab.xmu.edu.cn/),里面有详细的教学视频,课件,博文等内容,非常适合新手入门学习使用。

      本帖就一个月的学习情况,简要介绍下Hadoop的基本内容,抛砖引玉,希望感兴趣的同学可以一起学习。

      先上Hadoop生态图!

《201610月学习总结帖(Hadoop入门贴)》

      简单来说,Hadoop生态圈最重要的就是HDFS和MapReduce两个部分。

      首先需要介绍下这类大数据平台的基本思路,面对海量的数据,肯定不能单机处理了,都是基于分布式的处理思路,包括存储,计算在内都是分布到集群上,由多台服务器共同调度使用。

     有了以上基本常识后,Hadoop最底层的HDFS就是Hadoop分布式文件系统,具体存储的过程不细说,总之用户把文件存入HDFS中,系统会根据一定的存储规则,将文件自动冗余地保存在集群上,方便用户调用提取。

    能够做到文件存储,下一步就是另外一个核心——MapReduce编程模型。何为Map/Reduce呢?通俗的讲,Map就是把任务拆成一个个小块,然后并行执行同一个处理步骤,输出<key,value>键值对;Map完了之后,还会有Shuffle过程,对输出的键值对进行两个步骤,第一就是对键值对进行排序,第二是把相同的键值对输出到同一Reduce端;Reduce就是把最后进来的相同键值对再次处理,输出结果到HDFS文件中。

     以上两部分是Hadoop的核心,此外还有HBase,Zookeeper,Hive等。

     HBase是建立在HDFS上,面向列的NoSQL数据库。相信读者对一般的关系型数据库比较熟悉,但是在大数据时代,数据来源更复杂,传统的关系型数据库无法满足大数据处理的要求,为此应运而生了NoSQL数据库,而HBase正是其中一员。传统的数据库,是以行为单位储存的,举个例子,比如我们非常熟悉的以id为主键,name,age,sex,score等字段的关系型数据库,如果我需要读取某个id的基本信息,OK,关系型数据库很适合。但是如果我只想对所有同学的score进行分析,那么传统的关系型数据库就必须一行一行读取记录,非常浪费。但是如果采用面向列存储的HBase,它会把所有元素的score值存储在一个列族上,这个列族会在HDFS中,那么显然只需调用相关的HDFS文件即可,我不关心非score的其他字段,这就是非关系型数据库的基本思想。

    Zookeeper理解成一个管家即可,如何调度这些服务器协同工作,就靠它了!

    Hive也很重要,它是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

    当然Hadoop生态圈还不止这些, 以上几个基本模块,其实也对应着很多具体内容,比如HDFS命令,HBase命令,MapReduce函数如何写,这都是需要具体通过实例来学习和了解的。这里就推荐大家看厦门大学数据库实验室,按照视频,教材学习相关内容。当然书我也买了,需要的同学可以跟我联系。

    当然有个问题,就是Hadoop目前也基本不用了!被基于内存存储的Spark取代,所以Hadoop这部分,我感觉更是一个大数据学习的启蒙平台,通过Hadoop了解一些相关的概念,为进一步学习Spark,Storm等内容打个基础。

    11月的目标是学习Python基本语法,然后借Python把数据结构的内容实现一遍,一直没有特别擅长的语言,希望借这次学习的机会,使用Python能溜一点,为接下来的学习之路做好铺垫。

                                                                                                                                                   郭大宝

                                                                                                                                              明光桥北208

                                                                                                                                                 2016.10.31

    原文作者:北邮郭大宝
    原文地址: https://www.jianshu.com/p/d1faac7c3385
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞