spark几种部署模式,每种模式特点及搭建

Spark分布式集群搭建的步骤

  • 1)准备linux环境,设置集群搭建账号和用户组,设置ssh,关闭防火墙,关闭seLinux,配置host,hostname
  • 2)配置jdk到环境变量
  • 3)搭建hadoop集群,如果要做master,需要搭建zookeeper集、修改hdfs-site.xml,hadoop_env.sh,yarn-site.xml,slaves等配置文件
  • 4)启动hadoop集群,启动前要格式化namenode
  • 5)配置spark集群,修改spark-env.xml,slaves等配置文件,拷贝hadoop相关配置到spark conf目录下
  • 6)启动spark集群。

spark的有几种部署模式,每种模式特点

  • local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程;
  • standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持ZooKeeper来实现 HA
  • on yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算
  • on mesos(集群模式): 运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算
  • on cloud(集群模式):比如 AWS 的 EC2,使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统:HDFS 和 S3

下面对集中部署模式进行详细介绍

1、本地模式

该模式运行任务不会提交在集群中,只在本节点执行,有两种情况

本地模式: 测试或实验性质的本地运行模式 (单机)

运行该模式非常简单,只需要把Spark的安装包解压后,改一些常用的配置即可使用,而不用启动Spark的Master、Worker守护进程( 只有集群的Standalone方式时,才需要这两个角色),也不用启动Hadoop的各服务(除非你要用到HDFS)。

Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地单机模式分三类:

  • local:只启动一个executor
  • local[k]:启动k个executor
  • local[*]:启动跟cpu数目相同的 executor

搭建步骤:

  • 安装java
$ sudo apt-get install openjdk-8-jre

(中间有报错:raise IllegalArgumentException(s.split(‘: ‘, 1)[1], stackTrace)
pyspark.sql.utils.IllegalArgumentException: u’Unable to locate hive jars to connect to metastore. Please set spark.sql.hive.metastore.jars.’,网上提示查看jdk版本,发现ubuntu 18.04默认是openjdk-11-jdk包(java -version提示10.0.1)。重新安装openjdk-8-jdk版本不报错)

  • 配置jdk到环境变量
    (可以用命令:sudo update-alternatives –config java来查看你的Java版本有哪些,需要将哪个添加到环境变量中)
$ sudo vim /etc/profile
  • 添加
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
  • 安装Scala
  • 安装spark-2.3.1-bin-hadoop2.7(没有Hadoop的环境下)
$ sudo wget -c [http://mirror.bit.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz](http://mirror.bit.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz)
$ sudo tar zxf spark-2.3.1-bin-hadoop2.7.tgz -C /usr/lib/spark
$ cd /usr/lib/spark
$ sudo ln -s spark-2.3.1-bin-hadoop2.7 spark
$ sudo vim ~/.bashrc
  • 添加
    export SPARK_HOME=/usr/lib/spark/spark
    export PATH=《spark几种部署模式,每种模式特点及搭建》SPARK_HOME/bin
    export PYTHONPATH=/home/rss/anaconda2/bin
    (这里我修改了python的环境变量,使用自己的python
    sudo ln -s /home/rss/anaconda2/bin/python /usr/bin/python
    PATH=/usr/bin:$PATH)
  • 安装成功

运行:
使用spark-shell、spark-submit、pyspark
例如使用spark-shell:

local:单机、单核运行

《spark几种部署模式,每种模式特点及搭建》 image.png

《spark几种部署模式,每种模式特点及搭建》 image.png

local[k]:启动k个executor

《spark几种部署模式,每种模式特点及搭建》 image.png

《spark几种部署模式,每种模式特点及搭建》 image.png

local[]:启动跟cpu数目相同的 executor*

《spark几种部署模式,每种模式特点及搭建》 image.png

《spark几种部署模式,每种模式特点及搭建》 image.png

上述情况中,local[N]与local[*]相当于用单机的多个线程来模拟spark分布式计算,通常用来检验开发出来的程序逻辑上有没有问题。

其中N代表可以使用N个线程,每个线程拥有一个core。

这些任务的线程,共享在一个进程中,可以开到,在程序的执行过程中只会产生一个进程,这个进程揽下了所有的任务,既是客户提交任务的client进程,又是spark的driver程序,还是spark执行task的executor

本地模式: 测试或实验性质的本地伪集群运行模式(单机本地模拟集群)

这种运行模式,和Local[N]很像,不同的是,它会在单机启动多个进程来模拟集群下的分布式场景,而不像Local[N]这种多个线程只能在一个进程下委屈求全的共享资源。通常也是用来验证开发出来的应用程序逻辑上有没有问题,或者想使用Spark的计算框架而没有太多资源。

用法:提交应用程序时使用local-cluster[x,y,z]参数:x代表要生成的executor数,y和z分别代表每个executor所拥有的core和memory数。

$ spark-submit --master local-cluster[2,3,1024]  ss.py

上面这条命令代表会使用2个executor进程,每个进程分配3个core和1G的内存,来运行应用程序。可以看到,在程序执行过程中,会生成如下几个进程:

    原文作者:rssivy
    原文地址: https://www.jianshu.com/p/58d1c9bbfbb1
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞