spark任务提交,添加额外配置文件时用绝对路径读取不到上传的文件。
/usr/local/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --name str_platform_test_80 --master yarn --deploy-mode client --executor-cores 1 --num-executors 2 --executor-memory 1G --driver-memory 4G --conf spark.yarn.queue=radar --conf spark.driver.cores=4 --conf spark.driver.maxResultSize=10G --conf spark.yarn.submit.waitAppCompletion=false --conf spark.rpc.message.maxSize=2000 --conf spark.network.timeout=600s --conf spark.executor.heartbeatInterval=300s
--files /tmp/computeA_run_spark.py,/tmp/computeA1524709482.7682726_output_data.conf /home/guomm/script/spark_run.py computeA1524709482.7682726_output_data.conf computeA
在spark_run脚本中读取computeA_run_spark.py和computeA1524709482.7682726_output_data.conf失败,提示找不到文件。
cd tmp
/usr/local/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --name str_platform_test_80 --master yarn --deploy-mode client --executor-cores 1 --num-executors 2 --executor-memory 1G --driver-memory 4G --conf spark.yarn.queue=radar --conf spark.driver.cores=4 --conf spark.driver.maxResultSize=10G --conf spark.yarn.submit.waitAppCompletion=false --conf spark.rpc.message.maxSize=2000 --conf spark.network.timeout=600s --conf spark.executor.heartbeatInterval=300s --files computeA_run_spark.py,computeA1524709482.7682726_output_data.conf /home/guomm/script/spark_run.py computeA1524709482.7682726_output_data.conf computeA
只有cd到 tmp目录,用相对文件路径提交时才可以。
原因是spark将文件上传到集群时,会找/tmp/computeA_run_spark.py的路径,找不到,没上传成功或者上传成功放入了别的路径(没看到spark提示上传文件失败)。因此在你spark脚本执行的时候调用computeA_run_spark.py提示找不到文件。
我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=1yo3sp5f658kk