当您使用sc.textfile在Spark中读取文件时,它会为您提供元素,其中每个元素都是一个单独的行.但是,我希望每个元素由N行组成.我不能使用分隔符,因为该文件中没有分隔符.那么,我如何制作火花给我多个线条元素?
我有兴趣使用NLineInputFormat类.这可能在Spark中这样做吗?我可以看到MapReduce的示例,但我不知道它将如何转换为Spark.
最佳答案 是的,如果你从hadoop获取文件.你应该能够这样做:
val records = sc.newAPIHadoopRDD(hadoopConf,classOf[NLineInputFormat],classOf[LongWritable],classOf[Text])
这是API doc.