linux平台下Hadoop下载、安装、配置

2024年4月26日 152次阅读来源: MapReduce

在这里我使用的linux版本是CentOS 6.4 CentOS-6.4-i386-bin-DVD1.iso 下载地址：
http://mirrors.aliyun.com/centos/6.8/isos/i386/ 0.使用host-only方式将Windows上的虚拟网卡改成跟linux上的网卡在同一个网段上注意：一定要将windowsh 的WMnet1的ip设置和你的虚拟机在同一网段，但是ip不一样一、前期工作： 1.修改linux ip 手动修改也可以命令修改      vim
/etc/sysconfig/network-scripts/ifcfg-eth0       2.修改主机名(注意ubuntu版本方式)      vim
/etc/sysconfig/network
   将之前的名字更改为itcast01 3.修改主机名与 ip 对应关系 vim
/etc/hosts 192.168.8.88      itcast01 4.关闭防火墙查看防护墙状态 service iptables status 关闭 service iptables stop    查看防火墙开机启动状态 chkconfig iptables –list 关闭开机启动 chkconfig iptables off       二、安装Java JDK 这里使用的是 jdk-7u60-linux-i586.tar.gz，这里我使用VMware–>共享文件夹，（需要安装好）VMware Tool工具，这样我们就可以使用共享文件夹方式将windows下的文件，共享到linux平台。共享在/mnt/hdfs/ mkdir /usr/java tar -zxvf jdk-7u60-linux-i586.tar.gz -C /usr/java 将java添加到环境变量中 vim /etc/profile    在文件的末尾添加如下内容      export JAVA_HOME=/usr/java/jdk1.7.0_60 export PATH=$PATH:$JAVA_HOME/bin 刷新配置 source /etc/profile 三、安装hadoop 下载hadoop
https://archive.apache.org/dist/
https://archive.apache.org/dist/hadoop/core/hadoop-2.2.0/ 本次下载的是： hadoop-2.2.0.tar.gz 1.上传hadoop包，我这里使用FileZilla上传到 linux下root 目录下    2.解压hadoop包首先在根目录创建一个/itcast 目录         mkdir /itcast tar -zxvf hadoop-2.2.0.tar.gz -C /itcast 3.配置hadoop伪分布式（要修改etc/下的4个文件）第一个：hadoop-env.sh vim hadoop-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_60 第二个：core-site.xml <configuration> <!– 用来指定hdfs的老大（NameNode）的地址 –> <property> <name>fs.defaultFS</name> <value>hdfs://itcast01:9000</value> </property> <!– 用来指定Hadoop运行时产生文件的存放目录 –> <property> <name>hadoop.tmp.dir</name> <value>/itcast/hadoop-2.2.0/tmp</value> </property> </configuration> 第三个：hdfs-site.xml <configuration> <!– 指定HDFS保存数据副本数量 –>         <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> 第四个：mapred-site.xml (需要从此文件复制mapred-site.xml.template) <configuration> <!– 告诉hadoop以后MR运行在yarn上 –> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>    </configuration> 第五个：yarn-site.xml <configuration> <!– NodeManager获取数据的方式是shuffle–> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!– 指定YARN的老大（resourcemanager）的地址 –> <property> <name>yarn.resourcemanager.hostname</name> <value>itcast01</value> </property> </configuration> 4.将Hadoop添加到环境变量中 vim /etc/profile export JAVA_HOME=/usr/java/jdk1.7.0_60 export HADOOP_HOME=/itcast/hadoop-2.2.0 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin    #刷新配置 source /etc/profile 5.初始化HDFS（格式化文件系统，此步类似刚买U盘需要格式化）          #hadoop namenode -format(过时了) hdfs namenode -format 6.启动文HDFS和YARN ./start-all.sh（过时了）This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh Starting namenodes on [it] #有个小问题（需要多次输入密码）接下来，使用jps查看进程情况 jps（jps 在
Linux/unix平台上简单察看当前java进程的一些简单情况），如果有以下进程则表示测试通过 3887 Jps （java进程） 3449 SecondaryNameNode （相当于NameNode的助理） 3263 DataNode （hdfs部门的小弟，负责存放数据） 3138 NameNode （hdfs部门的老大） 3579 ResourceManager （yarn部门的老大，yarn负责资源管理） 3856 NodeManager （yarn部门的小弟，可以一个，集群的话会有很多）另外，我们也可以在windows平台下，使用浏览器进行查看，是否搭建成功 http://192.168.8.88:50070 ( hdfs管理界面) http://192.168.8.88:8088 （yarn管理界面）在这个文件中添加linux主机名和IP的映射关系 c:\Windows\System32\drivers\etc 在末尾，添加 192.168.8.88 itcast01 四、测试hdfs（主要存储数据，存储海量数据） 1.上传文件   hadoop fs -put /mnt/hgfs/share/jdk-7u60-linux-i586.tar.gz hdfs://itcast01:9000/jdk 2.下载文件 hadoop fs -get hdfs://itcast01:9000/jdk /home/jdk1.7 五、测试MapReduce和Yarn 官方提供了一个Jar包 /itcast/hadoop-2.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar 在这里，我们测试一下单词统计（输入与输出，都存放在hdfs，因为可能文件很大）我们新建一个words文件         hello tom hello jerry hello kitty hello world hello tom 将此文件words上传到hdfs上，接着我们使用mapreduce统计单词，同时输出也存放到hdfs上         hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount hdfs://itcast01:9000/words hdfs://itcast01:9000/wcount 这一个是hdfs://itcast01:9000/wcount 上是MapReduce统计结果         hello 5 jerry 1 kitty 1 tom 2 world 1 六、配置SSH免密码登录(/root/.ssh) #SSH协议（让linux不同机器，启动起来。hadoop老大为了让小弟听话，使用SSH进行控制） ssh-keygen -t rsa 执行完这个命令后，会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥) 将公钥拷贝成authorized_keys 文件上      cp id_rsa.pub authorized_keys 接下来，我们将公钥发送给想要登录的linux机器（实质是拷贝authorized_keys ） ssh-copy-id 192.168.8.89 这样，我们以后使用192.168.8.88（NameNode主机）免密登录192.168.8.89

    原文作者：MapReduce
    原文地址: https://www.cnblogs.com/dulixiaoqiao/p/6939818.html
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。