【Spark】简单入门——HelloWorld

环境

  • IntelliJ IDEA + Maven + Spark_2.1.1
  • JDK_1.8.0_131
  • Scala_2.11.0

语言

  • Java
  • Scala

目的

  • 读取README.md文件并显示文件内容

过程

  • 新建工程: File->New Project,选择Maven

《【Spark】简单入门——HelloWorld》 New Project 1

  • Next进入下一步
  • 输入GroupIdArtifactId

《【Spark】简单入门——HelloWorld》 New Project 2

  • Next进入下一步

《【Spark】简单入门——HelloWorld》 New Project 3

  • Finish
  • 新建的工程结构如下

《【Spark】简单入门——HelloWorld》 Project Structure

  • 其中pom.xml里面需要添加我们的maven仓库
  • spark依赖的代码如下:
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>2.1.1</version>
</dependency>
  • 修改后的pom.xml内容如下
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.helloworld</groupId>
    <artifactId>HelloWorld</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.1</version>
        </dependency>
    </dependencies>
</project>
  • 右键pom.xml文件,选择Maven->Reimport,开始下载依赖
  • 下载依赖的时间可能会很长_(:з」∠)_
  • 新建README.md文件,我的文件放在工程目录HelloWorld里,文件内容如下:

《【Spark】简单入门——HelloWorld》 READEME.md

  • 下面正式开始啦=v=

Java版本的HelloWorld

  • 右键点击src/main/java目录,选择New->Java Class

《【Spark】简单入门——HelloWorld》 New Class 1

  • 输入类名

《【Spark】简单入门——HelloWorld》 New Class 2

  • OK
  • 在新建的HelloWorld.java里添加如下代码
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;

public class HelloWorld {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("HelloWorld").setMaster("local").setSparkHome("/usr/lib/spark/spark-2.1.1-bin-hadoop2.7");
        // setMaster指定Master
        // setSparkHome指向安装spark的地址,视环境而定
        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<String> data = sc.textFile("README.md");
        // 加载README.md文件并创建RDD
        data.foreach(new VoidFunction<String>() {
            public void call(String s) throws Exception {
                System.out.println(s);
            }
        });
        // 输出RDD中的每个分区的内容
    }
}
  • 输出结果

《【Spark】简单入门——HelloWorld》 Output

Scala版本的HelloWorld

  • 先要下载Scala,已经下载的可以忽略这个部分
  • 点击File->Setting,找到Plugins,在右边搜索Scala

《【Spark】简单入门——HelloWorld》 Install Scala

  • 上面是已经安装完成的情况,要是没有安装的话应该会显示:

《【Spark】简单入门——HelloWorld》 Uninstall

  • 点击Search in repositories,找到Scala,然后点击Install就可以了
  • 安装完Scala后,进入下面的步骤
  • 点击File->Project Structure

《【Spark】简单入门——HelloWorld》 Add Scala SDK

  • 选择Libraries,点击左上角的+,选择Scala SDK

《【Spark】简单入门——HelloWorld》 Choose Scala

  • 一直点OK就可以了
  • 删除src/main/java目录,然后添加新目录scala,完成后工程结构如下

《【Spark】简单入门——HelloWorld》 Project Structure

  • 右键scala,点击Mark Directory as -> Sources Rootscala会变蓝色
  • 右键scala,选择New -> Scala Class
  • 输入类名,并注意选择KindObject

《【Spark】简单入门——HelloWorld》 New Scala Class

  • 在新建的HelloWorld.scala里添加如下代码
import org.apache.spark.{SparkConf, SparkContext}

object HelloWorld {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("HelloWorld").setMaster("local").setSparkHome("/usr/lib/spark/spark-2.1.1-bin-hadoop2.7");
    val sc = new SparkContext(conf)
    // setMaster指定Master
    // setSparkHome指向安装spark的地址,视环境而定

    val data = sc.textFile("README.md")
    // 加载README.md文件并创建RDD
    data.foreach(println)
    // 输出RDD中的每个分区的内容
  }
}
  • 输出结果

《【Spark】简单入门——HelloWorld》 Output

  • 成功啦( ̄︶ ̄)
  • 感觉自己罗里吧嗦的(/ω\)
    原文作者:quit3e
    原文地址: https://www.jianshu.com/p/30916eeab421
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞