Spark集群搭建，任务提交

2024年3月5日 175次阅读来源: 砥砺前行的疯子

搭建spark2.3.1

基于HDFS_onyarn搭建sparkHA

必须基于JDK1.8

下面是每台节点上配置的角色

    node01				node02				node03				node04				node05
    master(active)		worker				worker				客户端				master(standby)

    1、解压	
    
    2、到/software/spark-2.3.1/conf配置
    	cp slaves.template  slaves
    	slaves配置
    	
    		node02
    		node03 
    		
    	cp spark-env.sh.template spark-env.sh
    	spark-env.sh   的40行左右配置
    	
    		#master主机是那台
    		export SPART_MASTER_HOST=node01
    		
    		#提交任务的端口
    		export SPARK_MASTER_PORT=7077
    		
    		#指定worker上可支配的核
    		export SPARK_WORKER_CORES=2
    		
    		#worker可支配的内存
    		export SPARK_WORKER_MEMORY=3g
    		
    		#指定JAVA_HOME
    		export JAVA_HOME=/usr/java/jdk1.8.0_211-amd64
    		
    		#指定spark的webUI端口（默认8080与tomcat）冲突
    		export SPARK_MASTER_WEBUI_PORT=9999
    		
    		
    		#spark.deploy.recoveryMode			指定恢复模式
    		#spark.deploy.zookeeper.url 		指定zookeeper路径
    		#spark.deploy.zookeeper.dir 		向zookeeper注册的地址
    		export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node03:2181,node04:2181,node05:2181 -Dspark.deploy.zookeeper.dir=/MasterHa"
    
    		
    		
    3、分发到node02，node03，node05
    	node05下的/software/spark-2.3.1/conf/spark-env.sh修改
    		#master主机是那台
    		export SPART_MASTER_HOST=node05
    
    4、启动
    	node01的/software/spark-2.3.1/sbin
    		./start-all.sh  启动
    		node01的/software/spark-2.3.1/sbin
    		./start-all.sh  启动
    
    5、spark历史日志查看
    	客户端node04配置
    	到/software/spark-2.3.1/conf
    	cp spark-defaults.conf.template spark-defaults.conf
    		配置
    		#开启历史日志服务
    		spark.eventLog.enabled           true
    		#历史日志存放位置（若不存在需要手动创建，否则会报错）
    		spark.eventLog.dir               hdfs://mycluster/spark/log
    		#历史日志读取位置
    		spark.history.fs.logDirectory    hdfs://mycluster/spark/log
    		#历史日志是否压缩保存，压缩后节约5倍磁盘空间，但需要时间解压
    		spark.eventlog.compress          true
    		
    	/software/spark-2.3.1/sbin下开启历史日志服务
    	./start-history-server.sh 
    	
    
    6、进入spark-client页面
    	在/software/spark-2.3.1/bin下
    	./spark-shell --master spark://node01:7077 --name aaa
    	sc.textFile("hdfs://mycluster/spark/data/words").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()
    	
    7、在yarn上运行Spark需要在客户端的spark-env.sh配置
    
    	#指定hadoop的配置目录
    	export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    
    HDFS页面						node01:50070	
    yarn作业页面					node01:8088	
    修改端口后的spark作业页面		node01:9999
    历史日志服务UI页面				node04:18080
    
    
    spark作业提交
    	/software/spark-2.3.1/bin
    	
    	./spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar

    原文作者：砥砺前行的疯子
    原文地址: https://zhuanlan.zhihu.com/p/67331058
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。