spark几种部署模式，每种模式特点及搭建

2019年6月8日 370次阅读来源: rssivy

Spark分布式集群搭建的步骤

1）准备linux环境，设置集群搭建账号和用户组，设置ssh，关闭防火墙，关闭seLinux，配置host，hostname
2）配置jdk到环境变量
3）搭建hadoop集群，如果要做master，需要搭建zookeeper集、修改hdfs-site.xml,hadoop_env.sh,yarn-site.xml,slaves等配置文件
4）启动hadoop集群，启动前要格式化namenode
5）配置spark集群，修改spark-env.xml，slaves等配置文件，拷贝hadoop相关配置到spark conf目录下
6)启动spark集群。

spark的有几种部署模式，每种模式特点

local(本地模式)：常用于本地开发测试，本地还分为local单线程和local-cluster多线程;
standalone(集群模式)：典型的Mater/slave模式，不过也能看出Master是有单点故障的；Spark支持ZooKeeper来实现 HA
on yarn(集群模式)：运行在 yarn 资源管理器框架之上，由 yarn 负责资源管理，Spark 负责任务调度和计算
on mesos(集群模式)：运行在 mesos 资源管理器框架之上，由 mesos 负责资源管理，Spark 负责任务调度和计算
on cloud(集群模式)：比如 AWS 的 EC2，使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统：HDFS 和 S3

下面对集中部署模式进行详细介绍

1、本地模式

该模式运行任务不会提交在集群中，只在本节点执行，有两种情况

本地模式: 测试或实验性质的本地运行模式（单机）

运行该模式非常简单，只需要把Spark的安装包解压后，改一些常用的配置即可使用，而不用启动Spark的Master、Worker守护进程( 只有集群的Standalone方式时，才需要这两个角色)，也不用启动Hadoop的各服务（除非你要用到HDFS）。

Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地单机模式分三类：

local：只启动一个executor
local[k]:启动k个executor
local[*]：启动跟cpu数目相同的 executor

搭建步骤：

安装java

$ sudo apt-get install openjdk-8-jre

（中间有报错：raise IllegalArgumentException(s.split(‘: ‘, 1)[1], stackTrace)
pyspark.sql.utils.IllegalArgumentException: u’Unable to locate hive jars to connect to metastore. Please set spark.sql.hive.metastore.jars.’，网上提示查看jdk版本，发现ubuntu 18.04默认是openjdk-11-jdk包(java -version提示10.0.1)。重新安装openjdk-8-jdk版本不报错）

配置jdk到环境变量
（可以用命令：sudo update-alternatives –config java来查看你的Java版本有哪些，需要将哪个添加到环境变量中）

$ sudo vim /etc/profile

添加

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

安装Scala
安装spark-2.3.1-bin-hadoop2.7（没有Hadoop的环境下）

$ sudo wget -c [http://mirror.bit.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz](http://mirror.bit.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz)
$ sudo tar zxf spark-2.3.1-bin-hadoop2.7.tgz -C /usr/lib/spark
$ cd /usr/lib/spark
$ sudo ln -s spark-2.3.1-bin-hadoop2.7 spark
$ sudo vim ~/.bashrc

添加
export SPARK_HOME=/usr/lib/spark/spark
export PATH= $《spark几种部署模式，每种模式特点及搭建》$ SPARK_HOME/bin
export PYTHONPATH=/home/rss/anaconda2/bin
（这里我修改了python的环境变量，使用自己的python
sudo ln -s /home/rss/anaconda2/bin/python /usr/bin/python
PATH=/usr/bin:$PATH）
安装成功

运行：
使用spark-shell、spark-submit、pyspark
例如使用spark-shell：

local：单机、单核运行

《spark几种部署模式，每种模式特点及搭建》 image.png

local[k]:启动k个executor

《spark几种部署模式，每种模式特点及搭建》 image.png

local[]：启动跟cpu数目相同的 executor*

《spark几种部署模式，每种模式特点及搭建》 image.png

上述情况中，local[N]与local[*]相当于用单机的多个线程来模拟spark分布式计算，通常用来检验开发出来的程序逻辑上有没有问题。

其中N代表可以使用N个线程，每个线程拥有一个core。

这些任务的线程，共享在一个进程中，可以开到，在程序的执行过程中只会产生一个进程，这个进程揽下了所有的任务，既是客户提交任务的client进程，又是spark的driver程序，还是spark执行task的executor

本地模式: 测试或实验性质的本地伪集群运行模式（单机本地模拟集群）

这种运行模式，和Local[N]很像，不同的是，它会在单机启动多个进程来模拟集群下的分布式场景，而不像Local[N]这种多个线程只能在一个进程下委屈求全的共享资源。通常也是用来验证开发出来的应用程序逻辑上有没有问题，或者想使用Spark的计算框架而没有太多资源。

用法：提交应用程序时使用local-cluster[x,y,z]参数：x代表要生成的executor数，y和z分别代表每个executor所拥有的core和memory数。

$ spark-submit --master local-cluster[2,3,1024]  ss.py

上面这条命令代表会使用2个executor进程，每个进程分配3个core和1G的内存，来运行应用程序。可以看到，在程序执行过程中，会生成如下几个进程：

    原文作者：rssivy
    原文地址: https://www.jianshu.com/p/58d1c9bbfbb1
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。

Spark分布式集群搭建的步骤

spark的有几种部署模式，每种模式特点

1、本地模式

本地模式: 测试或实验性质的本地运行模式 （单机）

本地模式: 测试或实验性质的本地伪集群运行模式（单机本地模拟集群）

本地模式: 测试或实验性质的本地运行模式（单机）