在Windows下开发Hadoop程序

在IDE中开发Hadoop程序

一般我们编写代码都会在IDE中而不是在记事本中开发,在虚拟机或者服务器上编写代码也不是很方便,哦,当然在linux图形界面下用IDE开发也是比较方便的,如果还是比较习惯在windos下开发,那这篇文章应该对你有帮助哦,下面咱们一起在Eclipse中编写第一个Hadoop程序吧。

在eclipse中创建项目,新建lib目录。

《在Windows下开发Hadoop程序》 image.png

将Hadoop项目所需要的jar包copy到lib目录下。

因为我使用的Hadoop版本是2.7,所以本例中使用的jar包均为2.7版本的,你可以从官网下载。

《在Windows下开发Hadoop程序》 image.png

下载好之后打开share/hadoopcommon目录和hdfs目录并将其中的jar包全部拷贝至项目的lib目录下。

《在Windows下开发Hadoop程序》 image.png

《在Windows下开发Hadoop程序》 image.png

选中所有的jar包添加到项目依赖:

《在Windows下开发Hadoop程序》 image.png

我们先上传一些数据到虚拟机的HDFS中,之后在window系统中读取我们上传的数据。
编辑并上传:

《在Windows下开发Hadoop程序》 image.png

查看是否上传成功:

《在Windows下开发Hadoop程序》 image.png

在Eclipse中编写代码:

《在Windows下开发Hadoop程序》 image.png
《在Windows下开发Hadoop程序》 image.png

好了现在我们运行程序,应该会出现如下结果:

《在Windows下开发Hadoop程序》 image.png

这是因为我们没有log4j的配置文件,可以去网上或者以前的项目复制一个,放在src目录下即可。

《在Windows下开发Hadoop程序》 image.png

再次运行程序,会提示: java.io.IOException: HADOOP_HOME or hadoop.home.dir are not set

这是因为我们在windows下开发Hadoop程序,要远程调试也需要在windows中配置Hadoop环境变量。

《在Windows下开发Hadoop程序》 image.png
《在Windows下开发Hadoop程序》 image.png

配置好之后重启,然后再次运行程序。

《在Windows下开发Hadoop程序》 image.png

这个错误的原因是,我们如果要在window下运行hadoop程序,在HADOOP_HOME\bin下还需要有winutils.exe才行,可以去https://github.com/steveloughran/winutils
下载对应的文件。
下载好之后,我们将下载到bin目录下所有文件都解压HADOOP_HOME/bin下,然后再次运行程序。

然后应该会出现如下错误:哈哈不要放弃,我们再来搞定它。

《在Windows下开发Hadoop程序》 image.png

我们先来分析原因,这是一个与HDFS的远程连接失败的问题,可能的原因应该有:1.地址错误,2.防火墙问题,3.linux网络配置问题,我们一个一个的来排查。

地址确实有问题:

《在Windows下开发Hadoop程序》 image.png

如果我们写的直接是虚拟机的ip地址,那默认访问的应该是8020端口,还记得吗,我们在Hadoop配置core-site.xml文件的时候设置的是9000端口,所以需要修改端口号。

《在Windows下开发Hadoop程序》 image.png

接下来继续访问,还是会报相同的错误,我们来尝试关闭防火墙

ufw disable

再次运行程序,还是报错,这个时候我们来查看一下ubuntu的hosts文件设置,原来是我们没有绑定ip。

删除第二行127.0.0。1映射的本机名,将本机ip,映射本机名称,在图中红线处加入如下代码:本机ip 本机名称

《在Windows下开发Hadoop程序》 image.png

然而,再次运行程序发现还是不行,我们来检查一下Hadoop的配置文件。
检查core-site.xml

《在Windows下开发Hadoop程序》 image.png

发现设置的地址是localhost,意味着只有localhost地址或者127.0.0.1才能访问,而IP地址不能直接访问,所以我们将localhost改为本机ip。

删除hadoop的数据文件,然后重新创建文件夹,重新format,最后重启Hadoop:

hadoop namenode -format
stop-dfs.sh
start-dfs.sh

好了到了现在,我们在ubuntu中通过ip地址是可以访问HDFS了,如图:

《在Windows下开发Hadoop程序》 image.png

然后我们在windows中测试同样的代码:

《在Windows下开发Hadoop程序》 image.png

哈哈,真是生命不息,BUG不止,我们接着来解决这个问题。

折腾了许久,发现原来还需要将winutis.exehadoop.dll,复制到C://windowsC://windows//System32目录下,这是正解!

再次运行程序:

《在Windows下开发Hadoop程序》 image.png

功夫不负有心人,好了,我们已经可以在windows系统中开发Hadoop程序了。

如果我们以后经常在Eclipse中编写Hadoop程序,可以安装Hadoop的Eclipse插件,这样更加方便:https://github.com/winghc/hadoop2x-eclipse-plugin

原创内容,转载请注明出处。

    原文作者:MasterXiao
    原文地址: https://www.jianshu.com/p/e037f4fd1798
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞