file-upload – 从Apache Spark上传到Amazon S3

2024年1月23日 287次阅读

在将数据保存到Amazon S3时,如何使Apache Spark使用分段上传. Spark使用RDD.saveAs …文件方法写入数据.当目的地以s3n：//开始时,Spark会自动使用JetS3Tt进行上传,但对于大于5G的文件,这会失败.需要使用分段上传将大文件上传到S3,这对于较小的文件也应该是有益的.使用MultipartUtils的JetS3Tt支持分段上传,但Spark不会在默认配置中使用它.有没有办法让它使用这个功能. 最佳答案这是s3n的限制,您可以使用新的s3a协议来访问S3中的文件. s3a基于aws-adk库并支持许多功能,包括分段上传.这个
link的更多细节：