我需要通过使用spark streaming来从HDFS direcory流式传输数据.
JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/directory");
上面在监视新文件的HDFS目录方面做得非常好,但它仅限于同一目录级别,它不监视嵌套目录.
我发现以下帖子提到了为此API添加深度参数
https://github.com/apache/spark/pull/2765
问题是在火花版本1.6.1(测试)中此参数不存在,因此我不能使用它,我不想改变原始源8her
JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8020/*/*/*/");
堆栈溢出中的一些帖子提到使用上面的语法,这不起作用.
我错过了什么吗?
最佳答案 看起来补丁已创建但由于S3和目录深度的困难而从未批准过.