Spark MLlib 环境搭建超详细教程

2019年6月8日 410次阅读来源: 徐卜灵

1、系统及环境版本

系统：Win7 旗舰版 64位 sp1
JDK：1.8.0
Spark：2.3.2
Hadoop：2.7
Scala：2.11.8
文章最后，有所有版本的下载链接，不用再去折腾版本之间的问题。

2、环境下载

2.1 Spark 下载

http://spark.apache.org/downloads.html

《Spark MLlib 环境搭建超详细教程》 spark

2.2 hadooponwindos 下载

https://github.com/sardetushar/hadooponwindows

《Spark MLlib 环境搭建超详细教程》 image.png

2.3 Hadoop 下载

https://archive.apache.org/dist/hadoop/core/hadoop-2.7.1/

《Spark MLlib 环境搭建超详细教程》 image.png

2.4 JDK下载

略

2.5 IntelliJ IDEA

http://www.jetbrains.com/idea/download/#section=windows
注意选择版本

2.6 scala 下载

https://www.scala-lang.org/download/2.11.8.html

2.7 IntelliJ-scala plug 下载

http://plugins.jetbrains.com/plugin/1347-scala 选择版本下载
下载完毕之后，应该有以下7个文件：

《Spark MLlib 环境搭建超详细教程》 image.png

至此，准备工作才算完成！

3、环境配置

安装ideaIC-2017.3.5.exe。
除了scala-intelliJ-bin-2017.3.15不需要解压外，其他能解压的都需要解压。
重要：配置之前，需要把2.2中的bin文件夹替换掉2.3中的bin文件夹
重要：配置之前，需要把2.2中的bin文件夹替换掉2.3中的bin文件夹
重要：配置之前，需要把2.2中的bin文件夹替换掉2.3中的bin文件夹
重要的事说三遍！

3.1 JAVA环境配置：

JAVA_HOME:java所在的目录，注意不是bin目录
PATH:%JAVA_HOME%\bin
ClassPath：%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar

3.2 Hadoop环境配置

HADOOP_HOME:hadoop解压的目录
Path:%HADOOP_HOME%\bin

3.3 Spark环境配置

SPARK_HOME:spark解压的目录
Path:%SPARK_HOME%\bin

3.4 Scala环境配置

SCALA_HOME:scala解压的目录
Path:%SCALA_HOME%\bin

4、IDE的配置

4.1创建新项目

《Spark MLlib 环境搭建超详细教程》 image.png

4.2 选择Project SDK

选择刚才解压的JAVA目录

《Spark MLlib 环境搭建超详细教程》 image.png

next>next>finesh!
此时可以看到 external library只有一个jdk1.8

《Spark MLlib 环境搭建超详细教程》 image.png

4.3 安装scala插件

file>settings

《Spark MLlib 环境搭建超详细教程》 image.png

4.4 重启IntelliJ

重启之后：

《Spark MLlib 环境搭建超详细教程》 image.png
image.png

选择scala的解压的目录，我原来装过一个2.11.12版本的，所以，我这里会有两个版本，应该选择2.11.8版本。

4.5 添加spark library

《Spark MLlib 环境搭建超详细教程》

此时，新建项目之后可以看到，external libraryes 出现了 jdk1.8 和scala sdk。
我们最后再添加spark library
file>project structure

《Spark MLlib 环境搭建超详细教程》 image.png

Libraries > +
之后添加解压后的spark下的jars

《Spark MLlib 环境搭建超详细教程》 image.png

最终可以看到External Libraries出现了三个。

《Spark MLlib 环境搭建超详细教程》 image.png

4.6 建一个Sparkdemo 的object

《Spark MLlib 环境搭建超详细教程》 image.png

import org.apache.spark._
object SparkDemo {
  def main(args: Array[String]): Unit = {
    val masterUrl = "local[1]"
    val conf = new SparkConf().setAppName("helenApp").setMaster(masterUrl)
    val sc = new SparkContext(conf)


    val rdd = sc.parallelize(List(1, 2, 3, 4, 5, 6)).map(_ * 3)

    rdd.filter(_ > 10).collect().foreach(println)
    println(rdd.reduce(_ + _))

    println("hello world")
  }
}

4.7 ctrl+shift+F10运行！

最终，成功！

《Spark MLlib 环境搭建超详细教程》 image.png

由于是小白，所以记录得很详细。

所有软件，打包下载，不用再去折腾版本之间的问题。
下载链接：
https://download.csdn.net/download/xxubing123/10922008

参考：
https://blog.csdn.net/weixin_42596381/article/details/81006544

    原文作者：徐卜灵
    原文地址: https://www.jianshu.com/p/9f40fe1b6587
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。