Hadoop大数据入门到实战(第六节)- HDFS文件系统(JavaApi)

上一小节我们学习了FileSystem类的基本使用,本小节我们首先来学习使用API来完成文件的上传,要使用javaAPI来上传文件至集群我们需要使用到FSDataInputStream对象。

FSDataInputStream

我们知道在Java中要将数据输出到终端,需要文件输出流,HDFS的JavaAPI中也有类似的对象。
FileSystem类有一系列新建文件的方法,最简单的方法是给准备新建的文件制定一个path对象,然后返回一个用于写入数据的输出流:

public FSDataOutputStream create(Path p)throws IOException

该方法有很多重载方法,允许我们指定是否需要强制覆盖现有文件,文件备份数量,写入文件时所用缓冲区大小,文件块大小以及文件权限。

注意:create()方法能够为需要写入且当前不存在的目录创建父目录,即就算传入的路径是不存在的,该方法也会为你创建一个目录,而不会报错。如果有时候我们并不希望它这么做,可以先用exists()方法先判断目录是否存在。

我们在写入数据的时候经常想要知道当前的进度,API也提供了一个Progressable用于传递回调接口,这样我们就可以很方便的将写入datanode的进度通知给应用了。

package org.apache.hadoop.util;
public interface Progressable{
    public void progress();
}

接下来我们通过一个例子来体验FSDataOutputStream的用法:

还是一样我们先在本地创建一个文件,以供测试。

《Hadoop大数据入门到实战(第六节)- HDFS文件系统(JavaApi)》 image.png
《Hadoop大数据入门到实战(第六节)- HDFS文件系统(JavaApi)》 image.png

接下来编写代码:

《Hadoop大数据入门到实战(第六节)- HDFS文件系统(JavaApi)》 image.png

运行得到如下结果:

《Hadoop大数据入门到实战(第六节)- HDFS文件系统(JavaApi)》 image.png
《Hadoop大数据入门到实战(第六节)- HDFS文件系统(JavaApi)》 image.png

可以看到文件已经成功上传了。

练习

学以致用才能真正掌握知识,编写代码与脚本实现如下功能:

  • /develop/input/目录下创建hello.txt文件,并输入如下数据:
    迢迢牵牛星,皎皎河汉女。
    纤纤擢素手,札札弄机杼。
    终日不成章,泣涕零如雨。
    河汉清且浅,相去复几许?
    盈盈一水间,脉脉不得语。
    《迢迢牵牛星》

  • 使用FSDataOutputStream对象将文件上传至HDFS的/user/tmp/目录下,并打印进度。

删除文件

上传了文件之后,如果我们不想要了,怎么使用java代码删除集群上的文件呢?

使用FileSystemdelete()方法可以永久性删除文件或目录。

为了能查看到删除文件之后的效果我们先来了解下如何使用java代码输出HDFS的文件目录。

列出文件

我们在开发或者维护系统时,经常会需要列出目录的内容,在HDFS的API中就提供了listStatus()方法来实现该功能。

public FileStatus[] listStatus(Path f)throws IOException
public FileStatus[] listStatus(Path f,PathFilter filter)throws IOException
public FileStatus listStatus(Path[] files)throws IOException
public FileStatus() listStatus(Path[] files,PathFilter filter)throws IOException

当传入参数是一个文件时,他会简单的转变成以数组方式返回长度为1的FileStatus对象,当传入参数是一个目录时,则返回0或多个FileStatus对象,表示此目录中包含的文件和目录。

接下来通过一个例子,来体验一下listStatus()方法的使用:

《Hadoop大数据入门到实战(第六节)- HDFS文件系统(JavaApi)》 image.png

在命令行启动hadoop,编写代码,运行可以看到如下结果。

《Hadoop大数据入门到实战(第六节)- HDFS文件系统(JavaApi)》 image.png

显示了hdfs根目录下的文件夹与user目录下的文件夹。

删除文件

使用FileSystemdelete()方法可以永久性删除文件或目录。

public boolean delete(Path f,boolean recursive)throws IOException

如果f是一个文件或者空目录,那么recursive的值可以忽略,当recursize的值为true,并且p是一个非空目录时,非空目录及其内容才会被删除(否则将会抛出IOException异常)。

接下来我们通过一个例子,来查看该方法如何使用。

《Hadoop大数据入门到实战(第六节)- HDFS文件系统(JavaApi)》 image.png

编写代码,点击评测,可以看到如下结果:

《Hadoop大数据入门到实战(第六节)- HDFS文件系统(JavaApi)》 image.png

可以看到/user/hadoop/目录已经被删除了。

练习

先创建对应目录,然后使用java代码实现如下功能:

  • 删除HDFS的/user/hadoop/目录(空目录);
  • 删除HDFS的/tmp/test/目录(非空目录);
  • 列出HDFS根目录下所有的文件和文件夹;
  • 列出HDFS下/tmp/的所有文件和文件夹。
    原文作者:MasterXiao
    原文地址: https://www.jianshu.com/p/f55e81930039
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞