apache-spark – 递归监视HDFS目录的spark流

我需要通过使用spark streaming来从HDFS direcory流式传输数据.

JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/directory");

上面在监视新文件的HDFS目录方面做得非常好,但它仅限于同一目录级别,它不监视嵌套目录.

我发现以下帖子提到了为此API添加深度参数

https://mail-archives.apache.org/mod_mbox/spark-reviews/201502.mbox/%3C20150220121124.DBB5FE03F7@git1-us-west.apache.org%3E

https://github.com/apache/spark/pull/2765

问题是在火花版本1.6.1(测试)中此参数不存在,因此我不能使用它,我不想改变原始源8her

JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/*/*/*/");

堆栈溢出中的一些帖子提到使用上面的语法,这不起作用.

我错过了什么吗?

最佳答案 看起来补丁已创建但由于S3和目录深度的困难而从未批准过.

https://github.com/apache/spark/pull/6588

点赞