环境
- IntelliJ IDEA + Maven + Spark_2.1.1
- JDK_1.8.0_131
- Scala_2.11.0
语言
- Java
- Scala
目的
- 读取README.md文件并显示文件内容
过程
- 新建工程: File->New Project,选择Maven
New Project 1
- 点Next进入下一步
- 输入GroupId和ArtifactId
New Project 2
- 点Next进入下一步
New Project 3
- 点Finish
- 新建的工程结构如下
Project Structure
- 其中pom.xml里面需要添加我们的maven仓库
- spark依赖的代码如下:
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.1.1</version>
</dependency>
- 修改后的pom.xml内容如下
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.helloworld</groupId>
<artifactId>HelloWorld</artifactId>
<version>1.0-SNAPSHOT</version>
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.1.1</version>
</dependency>
</dependencies>
</project>
- 右键pom.xml文件,选择Maven->Reimport,开始下载依赖
- 下载依赖的时间可能会很长_(:з」∠)_
- 新建README.md文件,我的文件放在工程目录HelloWorld里,文件内容如下:
READEME.md
- 下面正式开始啦=v=
Java版本的HelloWorld
- 右键点击src/main/java目录,选择New->Java Class
New Class 1
- 输入类名
New Class 2
- 点OK
- 在新建的HelloWorld.java里添加如下代码
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;
public class HelloWorld {
public static void main(String[] args) {
SparkConf conf = new SparkConf().setAppName("HelloWorld").setMaster("local").setSparkHome("/usr/lib/spark/spark-2.1.1-bin-hadoop2.7");
// setMaster指定Master
// setSparkHome指向安装spark的地址,视环境而定
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> data = sc.textFile("README.md");
// 加载README.md文件并创建RDD
data.foreach(new VoidFunction<String>() {
public void call(String s) throws Exception {
System.out.println(s);
}
});
// 输出RDD中的每个分区的内容
}
}
- 输出结果
Output
Scala版本的HelloWorld
- 先要下载Scala,已经下载的可以忽略这个部分
- 点击File->Setting,找到Plugins,在右边搜索Scala
Install Scala
- 上面是已经安装完成的情况,要是没有安装的话应该会显示:
Uninstall
- 点击Search in repositories,找到Scala,然后点击Install就可以了
- 安装完Scala后,进入下面的步骤
- 点击File->Project Structure
Add Scala SDK
- 选择Libraries,点击左上角的+,选择Scala SDK
Choose Scala
- 一直点OK就可以了
- 删除src/main/java目录,然后添加新目录scala,完成后工程结构如下
Project Structure
- 右键scala,点击Mark Directory as -> Sources Root,scala会变蓝色
- 右键scala,选择New -> Scala Class
- 输入类名,并注意选择Kind为Object
New Scala Class
- 在新建的HelloWorld.scala里添加如下代码
import org.apache.spark.{SparkConf, SparkContext}
object HelloWorld {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("HelloWorld").setMaster("local").setSparkHome("/usr/lib/spark/spark-2.1.1-bin-hadoop2.7");
val sc = new SparkContext(conf)
// setMaster指定Master
// setSparkHome指向安装spark的地址,视环境而定
val data = sc.textFile("README.md")
// 加载README.md文件并创建RDD
data.foreach(println)
// 输出RDD中的每个分区的内容
}
}
- 输出结果
Output
- 成功啦( ̄︶ ̄)
- 感觉自己罗里吧嗦的(/ω\)