使用Java API远程访问HDFS

概述

在虚拟机中配置好Hadoop环境,通过本地(宿主机)编写Java程序去访问虚拟机中的HDFS,完成基本的读取文件操作。

方法

1.在mavan中添依赖项

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>2.7.7</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-hdfs</artifactId>
    <version>2.7.7</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>2.7.7</version>
</dependency>

2.代码

Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://master:9000");
conf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem");

FileSystem fs = null;
fs = FileSystem.get(conf);
Path file = new Path(path + fileName);

FSDataInputStream getIt = fs.open(file);
BufferedReader d = new BufferedReader(new InputStreamReader(getIt));
String content = d.readLine(); //读取文件一行
fs.close();

遇到的问题

  • 问题一
    java.lang.NoSuchMethodError: org.apache.hadoop.ipc.RPC.getProxy(....)
    解决办法:手动导入hadoop的依赖包。将虚拟机中hadoop安装目录下的share/hadoop文件夹中的comon hdfs mapreduce tools yarn这几个文件夹,加入到项目的依赖中。

《使用Java API远程访问HDFS》 IntellJ IDEA设置Hadoop依赖1.jpg
《使用Java API远程访问HDFS》 IntellJ IDEA设置Hadoop依赖2.jpg

  • 问题二
    No FileSystem for scheme:hdfs and Classorg.apache.hadoop.DistributedFileSystem not found
    解决办法:添加如下依赖项。
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-core</artifactId>
    <version>1.2.1</version>
</dependency>

其实,我是先遇到了这个问题,找到了解决方法后,再出现了上面的那个问题。但奇怪的是,我按上面那个问题的解决方法操作后,依然报错,而当我把这里添加的hadoop-core依赖项删除后,这两个问题都消失了。(应该是第一个解决方法所导入的文件,已经包含了这里给出的依赖)

参考资料

    原文作者:涛O_O
    原文地址: https://www.jianshu.com/p/8e27e29d006d
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞