Hadoop源码学习——从"-ls /"开始认识FsShell（3）

2019年6月8日 188次阅读来源: 找不到工作的_Ngone

闲话少叙，言归正传。这次，我们从”-ls /”命令入手，窥探一下hdfs。
hdfs模块提供了一个org.apache.hadoop.fs.FsShell类用来支持用户在终端的命令行操作。我们在使用终端时输入的命令，最终都会在FsShell这个类中执行。
首先，我们给FsShell类传递参数“-ls /”：

《Hadoop源码学习——从参数设置.jpg

然后找到“-ls /”命令执行运行的入口——main()函数：

public static void main(String argv[]) throws Exception {
    FsShell shell = new FsShell();
    int res;
    try {
      res = ToolRunner.run(shell, argv);
    } finally {
      shell.close();
    }
    System.exit(res);
  }

我们可以看到，首先，main()函数实例化一个FsShell对象，实例化FsShell对象的工作包括加载conf，初始化fs(FileSystem)和trash(Trash)两个成员变量为null。
接着，交给ToolRunner类去执行，ToolRunner的run方法的主要作用是解析参数。这里有个重要的辅助类提一下：GenericOptionsParser，具体是这个类来解析传入的参数。解析完参数后，ToolRunner 的run()方法又返回FsShell的run方法。注意：FsShell实现了Tool接口，然后实现了Tool接口的run方法
然后，我们看到FsShell的run方法。
FsShell的run方法首先检查参数（在上一步的ToolRunner的run方法中解析得到）的格式是否正确。接着，初始化FsShell

protected void init() throws IOException {
    getConf().setQuietMode(true);
  }

这里的getConf().setQuietMode(true)，我并不懂，暂不深究。我们继续往下看。
接下来，就是具体的参数匹配工作了。例如，在“-ls /”这个例子中就会匹配到：

else if ("-ls".equals(cmd)) {
        if (i < argv.length) {
          exitCode = doall(cmd, argv, i);
        } else {
          exitCode = ls(Path.CUR_DIR, false);
        }

如果给定了特定目录久执行doall方法，否则ls当前目录（Path.CUR_DIR）。因为这里我们给定了特定目录“/”，所以我们跳转到doall方法里去。
以ls命令为例，doall方法就是执行所有的ls命令后面的目录或文件的ls操作。例如，-ls <path1> <path2> <path3>。doall会以for循环的形式依次执行ls()这个方法：

else if ("-ls".equals(cmd)) {
          exitCode = ls(argv[i], false);
        }

我们紧接着跳转到ls()方法。

private int ls(String srcf, boolean recursive) throws IOException {
    Path srcPath = new Path(srcf); 
    FileSystem srcFs = srcPath.getFileSystem(this.getConf());
    FileStatus[] srcs = srcFs.globStatus(srcPath);

这是ls开头重要的三个步骤：
第一步：根据路径创建一个Path对象。创建过程会先检查该路径是否合法，然后将路径解析成uri（scheme://authority/path）格式；
第二步：根据上一步创建的Path对象获取FileSystem对象（具体获取过程我们在下一篇文章中单独讲，因为这里面涉及DFSClient、DistributedFileSystem、NameNode，内容较多）。这个FileSystem对象决定了我们要读取的文件是在哪个类型的文件系统中，例如hdfs或者本地文件系统。
第三步：在对应的文件系统中，获取对应路径下文件的属性（FileStatus）。这一步更重要，过程涉及DFSClient与NamNode之间的通信，即Hadoop ipc相关内容，也需要单独讲。
注意，在第三步中的srcPath这个参数，srcPath可以是一个具体的文件名字，也可以是文件名字的匹配模式,例如”/t“,这种模式就可以匹配到/test和/tmp这两个文件，srcs.length也就是2了，而不是我之前以为的好像只能是1。*如果srcs.length>1，则不会打印此次ls的信息头（即发现文件的个数，“Found xxx items”）
在这里，我们先简单地说这三步做了什么。

在获取到FileStatus[] srcs后（假设我们这里获取到了srcs[2]={“/test”,”/tmp”}两个目录），就循环遍历srcs，执行ls：

for(int i=0; i<srcs.length; i++) {
      numOfErrors += ls(srcs[i], srcFs, recursive, printHeader);
    }

接着跳转到又一个ls方法（假设第一次循环传过来的参数是”/test”）中：

private int ls(FileStatus src, FileSystem srcFs, boolean recursive,
      boolean printHeader) throws IOException {
    final String cmd = recursive? "lsr": "ls";
    final FileStatus[] items = shellListStatus(cmd, srcFs, src);

刚跳过来，又要跳到shellListStatus方法中去了：

private static FileStatus[] shellListStatus(String cmd, 
                                                   FileSystem srcFs,
                                                   FileStatus src) {
    if (!src.isDir()) {
      FileStatus[] files = { src };
      return files;
    }
    Path path = src.getPath();
    try {
      FileStatus[] files = srcFs.listStatus(path);

shellListStatus方法会首先判断路径src（/test）是目录还是文件，如果是文件则直接返回，如果是目录，则要调用listStatus方法获取该目录所有文件的status。
DistributedFileSystem类实现了FileSystem里listStatus()这个抽象方法。DistributedFileSystem类的list Status按两步获取一个目录下的所有文件。先取一部分数量的文件，如果没有其它的文件了，则获取结束。如果还有其它的文件，则循环获取该目录下的文件，直到获取完所有的文件。
然后，跳转到最近的一个ls方法中，继续执行。现在我们已经获取了一个目录下的所有文件信息(例如”/test/a”,”/test/b”)。接下来就是打印所有文件的信息：

// 接着上面最近的ls方法
int maxReplication = 3, maxLen = 10, maxOwner = 0,maxGroup = 0;
      System.out.println("FsShell's ls's items.length: " + items.length);
      for(int i = 0; i < items.length; i++) {
        FileStatus stat = items[i];
        int replication = String.valueOf(stat.getReplication()).length();
        int len = String.valueOf(stat.getLen()).length();
        int owner = String.valueOf(stat.getOwner()).length();
        int group = String.valueOf(stat.getGroup()).length();

        if (replication > maxReplication) maxReplication = replication;
        if (len > maxLen) maxLen = len;
        if (owner > maxOwner)  maxOwner = owner;
        if (group > maxGroup)  maxGroup = group; /
                                                          }

一开始，我看不懂这段代码的意思，后来终于看明白了。这段代码用来/获取文件各个属性的最大字符宽度，以便规整文件信息打印的格式。举个例子，文件/test/a的owner是wuyi，文件/test/b的owner是wy，那么，为了打印的时候格式规整，则/test/b的owner打印是也给定4个字符的宽度。

for (int i = 0; i < items.length; i++) {
        FileStatus stat = items[i];
        Path cur = stat.getPath();
        String mdate = dateForm.format(new Date(stat.getModificationTime()));
        System.out.print((stat.isDir() ? "d" : "-") + 
          stat.getPermission() + " ");
        System.out.printf("%"+ maxReplication + 
          "s ", (!stat.isDir() ? stat.getReplication() : "-"));
        if (maxOwner > 0)
          System.out.printf("%-"+ maxOwner + "s ", stat.getOwner());
        if (maxGroup > 0)
          System.out.printf("%-"+ maxGroup + "s ", stat.getGroup());
        System.out.printf("%"+ maxLen + "d ", stat.getLen());
        System.out.print(mdate + " ");
        System.out.println(cur.toUri().getPath());
        if (recursive && stat.isDir()) {
          numOfErrors += ls(stat,srcFs, recursive, printHeader);
        }
      }

接下来这段代码，就可以和我们在控制台看到的ls的输出结果可以对应起来了。例如：

-rw-r--r--   1 wuyi supergroup         92 2017-05-26 08:45 /test/a
-rw-r--r--   1 wuyi supergroup         63 2017-05-26 08:47 /test/b

至此，ls的整改流程也就通了。确切地说，应该是FsShell这段的流程。因为，我们知道，文件真正存储的地方是hdfs，所以想要获取文件信息，必定要访问namenode，这就涉及到hadoop ipc通信问题了。这是我们接下来需要进一步探讨的。

总结一下##

FsShell其实就是我们平常用终端写命令时，最终的程序运行入口。所以，FsShell命令还包括了我们常见的很多命令，例如put（旧版本的copyFromLocal）、get（旧版本的copyToLocal）、mkdir、mv、cp、rm、cat、chmod、chown、chgrp等等。而在FsShell类里所做的主要工作就是对这些命令的解析，即这些命令体现在文件系统中具体行为。当然，这其中也需要文件系统的配合(例如DistributedFileSystem中的listStatus方法)。我们接下来要重点关注的是(Distributed)FileSystem和DFSClient和Namenode三者的协作关系以及工作原理。

    原文作者：找不到工作的_Ngone
    原文地址: https://www.jianshu.com/p/6bf9b466330b
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。