spark运行问题解决

如果无法运行pyspark/spark-shell,
dfs, yarn, spark,三步都可能有问题

dfs启动应该能看到localhost:50070,如果有问题:
1 core-site.xml的tmp目录,不清楚原因,暂时没能设置为固定目录,不给参数,让它默认即可,但系统重启后需要把/tmp/hadoop-<username>文件夹删除,dfs目录(在hdfs-site.xml配置)删除,重新运行下面这一步
2 hdfs namenode -format,新的、空的、不匹配的hdfs目录,tmp目录,都需要运行一下这个,数据会被清除

yarn启动后应该能看到localhost:8088,如果有问题:
1 hosts不能有127.0.0.1 localhost记录

spark-shell/pyspark无法完成初始化,无法进入交互式:
1 检查yarn的active node,如果为0,检查unhealthy node
2 如果信息为local-dirs are bad,则可能剩余空间不够多,需要更多空间才能继续运行yarn
参考:stackoverflow

    原文作者:cdarling
    原文地址: https://www.jianshu.com/p/261bc807e1fd
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞