搭建Hadoop MapReduce的Eclipse开发环境

安装Eclipse插件

插件地址https://github.com/winghc/hadoop2x-eclipse-plugin,按着其说明编译得到适合hadoop版本的插件jar包。如hadoop-eclipse-plugin-2.7.3.jar,确认其放在了eclipse的plugins下。

启动hadoop

通过start-dfs.sh、start-yarn.sh启动

连接hadoop

打开首选项,找到Hadoop Map/Reduce选项,根据实际情况选择Hadoop的安装路径。

打开Map/Reduce透视图,在Map/Reduce Locations视图下创建hadoop连接。

在General选项卡下,Location name可以任意命名,如hadoop273。

Map/Reduce(v2) Master下配置job跟踪器的ip和端口,要和hadoop的配置项mapreduce.jobtracker.http.address一致,此处按上文《Hadoop2伪分布式安装部署》的环境配置,host为localhost ,port为50030。

DFS Master配置HDFS配置,该配置要和core-site.xml的fs.defaultFS配置一致,所以host为localhost,port为9000。

如果一切顺利,在工程视图的DFS Locations下树上可以浏览操作HDFS文件了。

创建文件夹

通过工程视图DFS Locations 右键提供的Create new directory在根目录下创建/user/$username/input待用,本例是/user/rbg/input。注意:该工具创建文件不会自动刷新,需要手动刷新一下才能显示出来。

该路径作为下面MapReduce程序的输入路径。

在input目录上右键,通过Upload files to DFS将本地某个文件上传到HDFS中,如选个hadoop的配置文件core-site.xml。

创建MapReduce Project

通过File->New->Project创建一个MapReduce Project,命名WordCount。

新建包org.apache.hadoop.example。

可以通过新建菜单提供的向导来新建Mapper、Reducer、MapReduce Driver三个部件。

《搭建Hadoop MapReduce的Eclipse开发环境》 3.png

也可以将三个部件放在一起,为方便,直接用hadoop自带的样例来讲解。

在hadoop安装目录下/share/hadoop/mapreduce/sources/找到hadoop-mapreduce-examples-2.7.3-sources.jar,解压,并拷贝WordCount.java到刚新建的包下。

在Eclipse中打开WordCount源代码,WordCount就是所谓的Mapreduce驱动程序,拥有一个main函数,负责启动一个mapreduce job。该main函数接收至少两个参数,最后一个参数代表输出路径,前面代表若干个输入路径。

在WordCount中声明了TokenizerMapper和IntSumReducer两个内部类,分别是一个mapper和一个reducer。mapper分析输入文本,以单词为key,1作为value输出。mapper接收到经过框架分组排序后的key-value,将value相加得到目标单词的总数,并以单词为key,总数为value进行输出。最终得出文本中每个单词出现的次数。

调试运行

创建WordCount的Java Application调试配置,在程序参数中输入

-conf /home/rbg/tools/hadoop273/etc/hadoop/core-site.xml input output

-conf 参数是为了告诉程序应用的配置,该参数会被main函数中调用的GenericOptionsParser自动解析。如果不用该配置可以将hadoop配置文件core-site.xml拷贝到工程src下也可以,但是第二种方式不太方便。

input output这两个目录自动对应HDFS下的/user/rbg/input和/user/rbg/output。

运行完毕,在output下可以查看运行结果。

    原文作者:墙角儿的花
    原文地址: https://www.jianshu.com/p/3f72528c56c8
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞