Hadoop源码学习——从"-ls /"开始认识FsShell(3)

闲话少叙,言归正传。这次,我们从”-ls /”命令入手,窥探一下hdfs。
hdfs模块提供了一个org.apache.hadoop.fs.FsShell类用来支持用户在终端的命令行操作。我们在使用终端时输入的命令,最终都会在FsShell这个类中执行。
首先,我们给FsShell类传递参数“-ls /”:

《Hadoop源码学习——从 参数设置.jpg

然后找到“-ls /”命令执行运行的入口——main()函数:

public static void main(String argv[]) throws Exception {
    FsShell shell = new FsShell();
    int res;
    try {
      res = ToolRunner.run(shell, argv);
    } finally {
      shell.close();
    }
    System.exit(res);
  }

我们可以看到,首先,main()函数实例化一个FsShell对象,实例化FsShell对象的工作包括加载conf,初始化fs(FileSystem)和trash(Trash)两个成员变量为null。
接着,交给ToolRunner类去执行,ToolRunner的run方法的主要作用是解析参数。这里有个重要的辅助类提一下:GenericOptionsParser,具体是这个类来解析传入的参数。解析完参数后,ToolRunner 的run()方法又返回FsShell的run方法。注意:FsShell实现了Tool接口,然后实现了Tool接口的run方法
然后,我们看到FsShell的run方法。
FsShell的run方法首先检查参数(在上一步的ToolRunner的run方法中解析得到)的格式是否正确。接着,初始化FsShell

protected void init() throws IOException {
    getConf().setQuietMode(true);
  }

这里的getConf().setQuietMode(true),我并不懂,暂不深究。我们继续往下看。
接下来,就是具体的参数匹配工作了。例如,在“-ls /”这个例子中就会匹配到:

else if ("-ls".equals(cmd)) {
        if (i < argv.length) {
          exitCode = doall(cmd, argv, i);
        } else {
          exitCode = ls(Path.CUR_DIR, false);
        } 

如果给定了特定目录久执行doall方法,否则ls当前目录(Path.CUR_DIR)。因为这里我们给定了特定目录“/”,所以我们跳转到doall方法里去。
以ls命令为例,doall方法就是执行所有的ls命令后面的目录或文件的ls操作。例如,-ls <path1> <path2> <path3>。doall会以for循环的形式依次执行ls()这个方法:

else if ("-ls".equals(cmd)) {
          exitCode = ls(argv[i], false);
        }

我们紧接着跳转到ls()方法。

private int ls(String srcf, boolean recursive) throws IOException {
    Path srcPath = new Path(srcf); 
    FileSystem srcFs = srcPath.getFileSystem(this.getConf());
    FileStatus[] srcs = srcFs.globStatus(srcPath);

这是ls开头重要的三个步骤:
第一步:根据路径创建一个Path对象。创建过程会先检查该路径是否合法,然后将路径解析成uri(scheme://authority/path)格式;
第二步:根据上一步创建的Path对象获取FileSystem对象(具体获取过程我们在下一篇文章中单独讲,因为这里面涉及DFSClient、DistributedFileSystem、NameNode,内容较多)。这个FileSystem对象决定了我们要读取的文件是在哪个类型的文件系统中,例如hdfs或者本地文件系统。
第三步:在对应的文件系统中,获取对应路径下文件的属性(FileStatus)。这一步更重要,过程涉及DFSClient与NamNode之间的通信,即Hadoop ipc相关内容,也需要单独讲。
注意,在第三步中的srcPath这个参数,srcPath可以是一个具体的文件名字,也可以是文件名字的匹配模式,例如”/t“,这种模式就可以匹配到/test和/tmp这两个文件,srcs.length也就是2了,而不是我之前以为的好像只能是1。*如果srcs.length>1,则不会打印此次ls的信息头(即发现文件的个数,“Found xxx items”)
在这里,我们先简单地说这三步做了什么。

在获取到FileStatus[] srcs后(假设我们这里获取到了srcs[2]={“/test”,”/tmp”}两个目录),就循环遍历srcs,执行ls:

for(int i=0; i<srcs.length; i++) {
      numOfErrors += ls(srcs[i], srcFs, recursive, printHeader);
    }

接着跳转到又一个ls方法(假设第一次循环传过来的参数是”/test”)中:

private int ls(FileStatus src, FileSystem srcFs, boolean recursive,
      boolean printHeader) throws IOException {
    final String cmd = recursive? "lsr": "ls";
    final FileStatus[] items = shellListStatus(cmd, srcFs, src);

刚跳过来,又要跳到shellListStatus方法中去了:

private static FileStatus[] shellListStatus(String cmd, 
                                                   FileSystem srcFs,
                                                   FileStatus src) {
    if (!src.isDir()) {
      FileStatus[] files = { src };
      return files;
    }
    Path path = src.getPath();
    try {
      FileStatus[] files = srcFs.listStatus(path);

shellListStatus方法会首先判断路径src(/test)是目录还是文件,如果是文件则直接返回,如果是目录,则要调用listStatus方法获取该目录所有文件的status。
DistributedFileSystem类实现了FileSystem里listStatus()这个抽象方法。DistributedFileSystem类的list Status按两步获取一个目录下的所有文件。先取一部分数量的文件,如果没有其它的文件了,则获取结束。如果还有其它的文件,则循环获取该目录下的文件,直到获取完所有的文件。
然后,跳转到最近的一个ls方法中,继续执行。现在我们已经获取了一个目录下的所有文件信息(例如”/test/a”,”/test/b”)。接下来就是打印所有文件的信息:

// 接着上面最近的ls方法
int maxReplication = 3, maxLen = 10, maxOwner = 0,maxGroup = 0;
      System.out.println("FsShell's ls's items.length: " + items.length);
      for(int i = 0; i < items.length; i++) {
        FileStatus stat = items[i];
        int replication = String.valueOf(stat.getReplication()).length();
        int len = String.valueOf(stat.getLen()).length();
        int owner = String.valueOf(stat.getOwner()).length();
        int group = String.valueOf(stat.getGroup()).length();

        if (replication > maxReplication) maxReplication = replication;
        if (len > maxLen) maxLen = len;
        if (owner > maxOwner)  maxOwner = owner;
        if (group > maxGroup)  maxGroup = group; /
                                                          }

一开始,我看不懂这段代码的意思,后来终于看明白了。这段代码用来/获取文件各个属性的最大字符宽度,以便规整文件信息打印的格式。举个例子,文件/test/a的owner是wuyi,文件/test/b的owner是wy, 那么,为了打印的时候格式规整,则/test/b的owner打印是也给定4个字符的宽度。

for (int i = 0; i < items.length; i++) {
        FileStatus stat = items[i];
        Path cur = stat.getPath();
        String mdate = dateForm.format(new Date(stat.getModificationTime()));
        System.out.print((stat.isDir() ? "d" : "-") + 
          stat.getPermission() + " ");
        System.out.printf("%"+ maxReplication + 
          "s ", (!stat.isDir() ? stat.getReplication() : "-"));
        if (maxOwner > 0)
          System.out.printf("%-"+ maxOwner + "s ", stat.getOwner());
        if (maxGroup > 0)
          System.out.printf("%-"+ maxGroup + "s ", stat.getGroup());
        System.out.printf("%"+ maxLen + "d ", stat.getLen());
        System.out.print(mdate + " ");
        System.out.println(cur.toUri().getPath());
        if (recursive && stat.isDir()) {
          numOfErrors += ls(stat,srcFs, recursive, printHeader);
        }
      }

接下来这段代码,就可以和我们在控制台看到的ls的输出结果可以对应起来了。例如:

-rw-r--r--   1 wuyi supergroup         92 2017-05-26 08:45 /test/a
-rw-r--r--   1 wuyi supergroup         63 2017-05-26 08:47 /test/b

至此,ls的整改流程也就通了。确切地说,应该是FsShell这段的流程。因为,我们知道,文件真正存储的地方是hdfs,所以想要获取文件信息,必定要访问namenode,这就涉及到hadoop ipc通信问题了。这是我们接下来需要进一步探讨的。

总结一下##

FsShell其实就是我们平常用终端写命令时,最终的程序运行入口。所以,FsShell命令还包括了我们常见的很多命令,例如put(旧版本的copyFromLocal)、get(旧版本的copyToLocal)、mkdir、mv、cp、rm、cat、chmod、chown、chgrp等等。而在FsShell类里所做的主要工作就是对这些命令的解析,即这些命令体现在文件系统中具体行为。当然,这其中也需要文件系统的配合(例如DistributedFileSystem中的listStatus方法)。我们接下来要重点关注的是(Distributed)FileSystem和DFSClient和Namenode三者的协作关系以及工作原理。

    原文作者:找不到工作的_Ngone
    原文地址: https://www.jianshu.com/p/6bf9b466330b
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞