Hadoop入门

2019年6月8日 296次阅读来源: Spike_3154

HDFS的体系结构

设计目标

自动快速检测应对硬件错误
流式访问数据
转移计算本身比转移数据更加划算
简单的数据一致性模型：一次写入，多次夺取
异构平台可移植

HDFS体系结构图

《Hadoop入门》

HDFS是典型的master-slave架构，其中NameNode作为Master而DataNode作为Slave。
HDFS由分布在不同机架上的DataNode以及NameNode所组成。一般用户从NameNode获取到元数据信息，并且从DataNode再获取真正的数据。

基础概念

数据块（Block）：HDFS最基本的存储单元。默认大小是64M.
元数据：HDFS系统中文件与目录的属性信息。HDFS采用镜像文件（Fsimage）+日志文件（EditLog）的备份机制。其中日志文件包含了HDFS操作的所有信息。
主从节点通信：NameNode与DataNode之间使用TCP进行通信。
HDFS写数据流程：如下图所示：

《Hadoop入门》

HDFS读数据流程

《Hadoop入门》

注意，数据读取的过程中FSDataInputStream总是从离客户端最近的DataNode上读取一个个的数据块。

MapReduce体系结构

Client：客户端，用于用户提交程序，查看作业运行状态。
JobTracker：MapReduce架构主节点，一个MapReduce作业只有一个JobTracker。负责作业初始化，分配，与作业进行通信，协调其执行。
TaskTracker：任务节点，与JobTracker通信并在分配的数据块上执行Map或者Reduce操作/。
HDFS：用于存储输入以及输出的数据。

《Hadoop入门》 2017-05-08_092003.png

基础概念

作业（Job）：一个MapReduce作业用到的Jar以及类的集合。
任务（Task）：一个作业包含多个task
键值对：Map()以及Reduce()操作的输入以及输出均为<Key,Value>的形式

运行模式

单机模式：使用本地文件系统，一般用于MapReduce程序调试
伪分布式模式：

《Hadoop入门》

完全分布式模式：

《Hadoop入门》

安装

首先安装JDK
导出Java环境变量：

JAVA_HOME=/usr/local/jdk1.8
export PATH=$JAVA_HOME/bin:$PATH

将 Hadoop 安装至 /usr/local/ 中：

sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限

检查 Hadoop 是否可用

cd /usr/local/hadoop
./bin/hadoop version

单机配置

Hadoop默认就是单机模式
Hadoop 附带了丰富的例子（运行 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar 可以看到所有例子），包括 wordcount、terasort、join、grep 等。这里选择grep 例子，我们将 input 文件夹中的所有文件作为输入，筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数，最后输出结果到 output 文件夹中。

cd /usr/local/hadoop
mkdir ./input
cp ./etc/hadoop/*.xml ./input   # 将配置文件作为输入文件
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'
cat ./output/*          # 查看运行结果

Hadoop 默认不会覆盖结果文件，因此再次运行上面实例会提示出错，需要先将 ./output 删除。

Hadoop伪分布式配置

首先配置/etc/hadoop/core-site.xml文件

vim ./etc/hadoop/core-site.xml
# 改成下面的配置
<configuration>
        <property>
             <name>hadoop.tmp.dir</name>
             <value>file:/usr/local/hadoop/tmp</value>
             <description>Abase for other temporary directories.</description>
        </property>
        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://localhost:9000</value>
        </property>
</configuration>

再修改配置文件 ./etc/hadoop/hdfs-site.xml：

<configuration>
        <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

配置文件相关说明
Hadoop 的运行方式是由配置文件决定的（运行 Hadoop 时会读取配置文件），因此如果需要从伪分布式模式切换回非分布式模式，需要删除 core-site.xml 中的配置项。
此外，伪分布式虽然只需要配置 fs.defaultFS 和 dfs.replication 就可以运行（官方教程如此），不过若没有配置 hadoop.tmp.dir 参数，则默认使用的临时目录为 /tmp/hadoo-hadoop，而这个目录在重启时有可能被系统清理掉，导致必须重新执行 format 才行。所以我们进行了设置，同时也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir，否则在接下来的步骤中可能会出错。
格式化NameNode

./bin/hdfs namenode -format

可能出现权限不够的情况，这时需要给/usr/local/hadoop内文件加上访问权限
格式化完成会出现“successfully formatted” 和 “Exitting with status 0” 的提示，若为 “Exitting with status 1” 则是出错。

《Hadoop入门》

开启NameNode以及DataNode守护进程

./sbin/start-dfs.sh

开启守护进程后运行jps，可以看到进程中有NameNode以及DataNode项。
成功启动后，可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。

运行例子

./bin/hdfs dfs -mkdir -p /user/hadoop

接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中，即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的 /user/hadoop/input 中。我们使用的是 hadoop 用户，并且已创建相应的用户目录 /user/hadoop ，因此在命令中就可以使用相对路径如 input，其对应的绝对路径就是/user/hadoop/input:

./bin/hdfs dfs -mkdir input
./bin/hdfs dfs -put ./etc/hadoop/*.xml input

复制完成后，可以通过如下命令查看文件列表：

./bin/hdfs dfs -ls input

伪分布式运行 MapReduce 作业的方式跟单机模式相同，区别在于伪分布式读取的是HDFS中的文件.

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-
examples-*.jar grep input output 'dfs[a-z.]+'

随后可以查看结果：

./bin/hdfs dfs -cat output/*

可以将运行结果取回到本地：

rm -r ./output    # 先删除本地的 output 文件夹（如果存在）
./bin/hdfs dfs -get output ./output     # 将 HDFS 上的 output 文件夹拷贝到本机
cat ./output/*

运行程序时，输出目录不能存在。运行 Hadoop 程序时，为了防止覆盖结果，程序指定的输出目录（如 output）不能存在，否则会提示错误，因此运行前需要先删除输出目录。在实际开发应用程序时，可考虑在程序中加
上如下代码，能在每次运行时自动删除输出目录，避免繁琐的命令行操作

Configuration conf = new Configuration();
Job job = new Job(conf);
/* 删除输出目录 */
Path outputPath = new Path(args[1]);
outputPath.getFileSystem(conf).delete(outputPath, true);

关闭 Hadoop，则运行

./sbin/stop-dfs.sh

启动Yarn

伪分布式不启动 YARN 也可以，一般不会影响程序执行。新版的 Hadoop 使用了新的 MapReduce 框架（MapReduce V2，也称为 YARN，Yet Another Resource Negotiator）。YARN 是从 MapReduce 中分离出来的，负责资源管理与任务调度。YARN 运行于 MapReduce 之上，提供了高可用性、高扩展性。
首先修改配置文件 mapred-site.xml

eversilver@debian:/usr/local/hadoop$ cp ./etc/hadoop/mapred-
site.xml.template ./etc/hadoop/mapred-site.xml
eversilver@debian:/usr/local/hadoop$ vim ./etc/hadoop/mapred-site.xml
# 编辑内容如下
<configuration>
        <property>
             <name>mapreduce.framework.name</name>
             <value>yarn</value>
        </property>
</configuration>

然后修改yarn-site.xml文件

<configuration>
        <property>
             <name>yarn.nodemanager.aux-services</name>
             <value>mapreduce_shuffle</value>
            </property>
</configuration>

然后就可以启动yarn

./sbin/start-yarn.sh      # 启动YARN
./sbin/mr-jobhistory-daemon.sh start historyserver  # 开启历史服务器，才能在
# Web中查看任务运行情况

jps会查看到NodeManager以及Resource Manager两个新的进程：

eversilver@debian:/usr/local/hadoop$ jps
21328 ResourceManager
21732 JobHistoryServer
19765 NameNode
13974 QuorumPeerMain
21798 Jps
21607 NodeManager
19880 DataNode
15933 Kafka
20029 SecondaryNameNode

启动 YARN 之后，运行实例的方法还是一样的，仅仅是资源管理方式、任务调度不同。观察日志信息可以发现，不启用 YARN 时，是 “mapred.LocalJobRunner” 在跑任务，启用 YARN 之后，是 “mapred.YARNRunner” 在跑任务。启动 YARN 有个好处是可以通过 Web 界面查看任务的运行情况：http://192.168.128.128:8088/cluster
YARN 主要是为集群提供更好的资源管理与任务调度，然而这在单机上体现不出价值，反而会使程序跑得稍慢些。
注意：如果不想启动 YARN，务必把配置文件 mapred-site.xml 重命名，改成 mapred-site.xml.template，需要用时改回来就行。否则在该配置文件存在，而未开启 YARN 的情况下，运行程序会提示 “Retrying connect to server: 0.0.0.0/0.0.0.0:8032” 的错误，这也是为何该配置文件初始文件名为 mapred-site.xml.template。
关闭Yarn

./sbin/stop-yarn.sh
./sbin/mr-jobhistory-daemon.sh stop historyserver

    原文作者：Spike_3154
    原文地址: https://www.jianshu.com/p/e4db1f85b8a3
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。