hadoop – 如何在Spark中读取多个行元素？

2023年2月21日 228次阅读

当您使用sc.textfile在Spark中读取文件时,它会为您提供元素,其中每个元素都是一个单独的行.但是,我希望每个元素由N行组成.我不能使用分隔符,因为该文件中没有分隔符.那么,我如何制作火花给我多个线条元素？

我有兴趣使用NLineInputFormat类.这可能在Spark中这样做吗？我可以看到MapReduce的示例,但我不知道它将如何转换为Spark.

最佳答案是的,如果你从hadoop获取文件.你应该能够这样做：

val records = sc.newAPIHadoopRDD(hadoopConf,classOf[NLineInputFormat],classOf[LongWritable],classOf[Text])