急性子的Hadoop入门教程,涨工资就靠它了

《急性子的Hadoop入门教程,涨工资就靠它了》

阿里巴巴采用了 15 个节点组成的 Hadoop 集群,用于处理从数据库中导出的商业数据的排序和组合。
Ebay 使用了 32 个节点组成的集群,包括 8 * 532 个计算核心以及 5.3 PB 的存储。
Facebook 主要使用 Hadoop 来存储内部日志和结构化数据源的副本,并且将其作为数据报告、数据分析和机器学习的数据源。

随着央视新闻天天说大数据,很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了。什么是Hadoop?

Apache Hadoop 是一款支持数据密集型分布式应用并以 Apache 2.0 许可协议发布的开源软件框架。Hadoop 框架透明地为应用提供可靠性和数据移动。它实现了名为 MapReduce 的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。

Hadoop市场现状

开发人才目前比较匮乏,基本都集中在互联网。维护人才我觉得互联网外的行业一段时间内基本不用考虑,不是太多了,而是根本没有。Hadoop和云计算最后拼的就是运维,大规模分布式系统的运维人才极难培养。

《急性子的Hadoop入门教程,涨工资就靠它了》

Hadoop版本的选择

目前为止,作为半只脚迈进Hadoop大门的人,我建议大家还是选择Hadoop 2.x用。

《急性子的Hadoop入门教程,涨工资就靠它了》

Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:

  • HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性;

  • MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN(Yet Another Resource Negotiator)。

核心概念

Hadoop 项目主要包含了以下四个模块:

  1. Hadoop 通用模块(Hadoop Common): 为其他 Hadoop 模块提供支持的公共实用程序。

  2. Hadoop 分布式文件系统(HDFS, Hadoop Distributed File System):提供对应用程序数据的高吞吐量访问的分布式文件系统。

  3. Hadoop YARN: 任务调度和集群资源管理框架。

  4. Hadoop MapReduce: 基于 YARN 的大规模数据集并行计算框架。

对于初次学习 Hadoop 的用户而言,应重点关注 HDFS 和 MapReduce。作为一个分布式计算框架,HDFS 承载了该框架对于数据的存储需求,而 MapReduce 满足了该框架对于数据的计算需求。

下图是 Hadoop 集群的基本架构:

《急性子的Hadoop入门教程,涨工资就靠它了》

部署 Hadoop

Hadoop 主要有以下三种部署模式:

单机模式:在单台计算机上以单个进程的模式运行。
伪分布式模式:在单台计算机上以多个进程的模式运行。该模式可以在单节点下模拟“多节点”的场景。
完全分布式模式:在多台计算机上分别以单个进程的模式运行。

具体的部署步骤以及详细的教程大家可以戳我查看

今天跟大家分享的这个教程,主要包含以下知识点:

实验1:Hadoop 简介与安装部署

挑战1:Hadoop 系统部署

实验2:HDFS 架构与操作

实验3:MapReduce 原理与实践

挑战2:使用 MapReduce 进行日志分析

实验4:YARN 架构

挑战3:用 Hadoop 计算圆周率

实验5:HBase 基础

挑战4:HBase 数据导入

实验6:Sqoop 数据迁移

挑战5:HBase 实现 Web 日志场景数据处理

实验7:Solr 基础实战

实验8:Hive 基础实战

挑战6:导入数据到 Hive

实验9:Flume 基础实战

实验10:Flume、HDFS 和 Hive 实现日志收集和分析

挑战7:用 Flume 和 MapReduce 进行日志分析

实验11:Kafka 基础实战

挑战8:按需部署 Kafka

实验12:使用 Flume 和 Kafka 实现实时日志收集

实验13:Pig 基础实战

关于该教程的学习,你需要有一定的计算机基础和 Java 基础,并且对 Hadoop 感兴趣。这个原本是我们的收费教程,原价349元,限时折扣价149元。

  • 上班族土豪可以戳这里直接购买学习
  • 学生党可以关注实验楼微信公众号(实验楼),回复暗号“Hadoop”免费领取。

好啦,大家加油学习哦。

“过一个平凡无趣的人生实在太容易了,你可以不读书,不冒险,不运动,不写作,不折腾。但是,人生最后悔的事情就是:我本可以。”

相关推荐

20个Java练手项目,献给嗜学如狂的人

大牛推荐的10本学习 Python 的好书

别再说找不到Python练手项目了,这80个拿去过冬

40个大数据学习资源

PHP学习资源整理:入门到进阶全系列

8个程序员专用软件/网站,个个是神器,第一个最惊喜……

RabbitMQ 消息队列

Redis基础教程)

Shell脚本实现打字游戏

Python Flask Web框架

Python 图片转字符画

Python实现3D建模工具

Python3 实现色情图片识别

    原文作者:实验楼
    原文地址: https://www.jianshu.com/p/ba9b44f74b0d
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞