集群上运行spark

1.启动hadoop与spark。

2.独立集群管理器
(1)spark-submit(jar)
向独立集群管理器提交应用,需要把spark://master:7077作为主节点参数递给spark-submit。下面我们可以运行Spark安装好以后自带的样例程序SparkPi,它的功能是计算得到pi的值(3.1415926)。
在Shell中输入如下命令:

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 examples/jars/spark-examples_2.11-2.0.2.jar 100 2>&1 | grep "Pi is roughly"

python同样可以操作。

《集群上运行spark》

《集群上运行spark》
《集群上运行spark》 Paste_Image.png

(2) spark-shell
也可以用spark-shell连接到独立集群管理器上。用hdfs上的电影集文件做测试。
在Shell中输入如下命令启动进入spark-shell:

    cd /usr/local/spark/
    bin/spark-shell --master spark://master:7077

可以在spark-shell中输入如下代码进行测试:

《集群上运行spark》 Paste_Image.png

3.hadoop yarn
(1) spark-submit(jar)
向Hadoop YARN集群管理器提交应用,需要把yarn-cluster作为主节点参数递给spark-submit。
请登录Linux系统,打开一个终端,在Shell中输入如下命令:

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster examples/jars/spark-examples_2.11-2.0.2.jar

《集群上运行spark》 Paste_Image.png
《集群上运行spark》 Paste_Image.png

(2)spark-shell

bin/spark-shell --master yarn

scala代码同上。

    原文作者:hz82114280
    原文地址: https://www.jianshu.com/p/f0b02efdce85
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞