如果无法运行pyspark/spark-shell,
dfs, yarn, spark,三步都可能有问题
dfs启动应该能看到localhost:50070,如果有问题:
1 core-site.xml的tmp目录,不清楚原因,暂时没能设置为固定目录,不给参数,让它默认即可,但系统重启后需要把/tmp/hadoop-<username>文件夹删除,dfs目录(在hdfs-site.xml配置)删除,重新运行下面这一步
2 hdfs namenode -format,新的、空的、不匹配的hdfs目录,tmp目录,都需要运行一下这个,数据会被清除
yarn启动后应该能看到localhost:8088,如果有问题:
1 hosts不能有127.0.0.1 localhost记录
spark-shell/pyspark无法完成初始化,无法进入交互式:
1 检查yarn的active node,如果为0,检查unhealthy node
2 如果信息为local-dirs are bad,则可能剩余空间不够多,需要更多空间才能继续运行yarn
参考:stackoverflow