apache-spark – spark RDD saveAsTextFile gzip

是否可以将spark rdd文本文件保存为gzip?

我能以某种方式运行它:combPrdGrp3.repartition(10).saveAsTextFile(“Combined”)并将其保存为gzip文件?

最佳答案 使用

combPrdGrp3.repartition(10).saveAsTextFile("Combined", classOf[GzipCodec])

要么

sc.hadoopConfiguration.setClass(FileOutputFormat.COMPRESS_CODEC, classOf[GzipCodec], classOf[CompressionCodec])
点赞