apache-spark – 递归监视HDFS目录的spark流

2023年6月21日 250次阅读

我需要通过使用spark streaming来从HDFS direcory流式传输数据.

JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/directory");

上面在监视新文件的HDFS目录方面做得非常好,但它仅限于同一目录级别,它不监视嵌套目录.

我发现以下帖子提到了为此API添加深度参数

问题是在火花版本1.6.1(测试)中此参数不存在,因此我不能使用它,我不想改变原始源8her

JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/*/*/*/");

堆栈溢出中的一些帖子提到使用上面的语法,这不起作用.

我错过了什么吗？

最佳答案看起来补丁已创建但由于S3和目录深度的困难而从未批准过.