hadoop 提高hdfs删文件效率----hadoop删除文件流程解析

2019年3月23日 422次阅读来源: DFS

前言

这段时间在用hdfs，由于要处理的文件比较多，要及时产出旧文件，但是发现hdfs的blocks数一直在上涨，经分析是hdfs写入的速度较快，而block回收较慢，所以分心了一下hadoop删文件的流程，并做了调优，希望对遇到此类问题的程序猿们有帮助。

正文

经分析与查看源码发现，hdfs删除文件的流程是这样的：

（1）java程序中的DFSClient调用delete函数，删除文件

（2）NameNode将文件从他的namespace中删除

（3）NameNode通过心跳的方式，发命令给DataNode，告诉DataNode哪些block块该删除，然后DataNode才真正将文件删除。

当然这里面还有很多详细的流程，这里暂时不解释了，通过查看源码发现，NameNode每次通过心跳发给DataNode的block块数是100, 现在调优有连个地方可以改

（1）把心跳间隔改小一点，这个在配置文件hdfs-site.xml中的dfs.heartbeat.interval 。

（2）让NameNode每次多发给DataNode一些block块，由于是看源码发现的所以就该源码了，后来发现其实可以在配置文件中陪《hadoop 提高hdfs删文件效率----hadoop删除文件流程解析》

修改DFSConfigKeys类中的DFS_BLOCK_INVALIDATE_LIMIT_DEFAULT，重新编译hadoop，替换到集群中即可。

更简单的方法就是修改配置文件 dfs.block.invalidate.limit

    原文作者：DFS
    原文地址: https://www.cnblogs.com/smileallen/p/3391473.html
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。