一、简介
1.1内容
在mac电脑上成功安装spark(不用预先安装hadoop),并在jupyter上使用pyspark来操作spark。
1.2 知识点
- jdk的安装
- spark和pyspark的安装
- 虚拟环境的内核
1.3 环境
本文所有的环境变量是在.bash_profile
或 .zshrc
中配置的
vim ~/.bash_profile # 编辑文件
source ~./bash_profile # 更新文件
一、安装Java JDK的dmg文件
spark目前暂不支持JDK-9,所以选择下载最新的JDK-8版本
官网下载(慢)
国内下载(快)
下载完成之后,直接点击jdk-8.dmg
文件安装,并添加对应的环境变量
export JAVA_HOME="/Library/Java/JavaVirtualMachines/jdk1.8.0_151.jdk/Content s/Home"
export PATH="$JAVA_HOME/bin:$PATH"
在Terminal中输入java
查看安装结果
二、安装Spark&pyspark
2.1下载
> brew install apache-spark
> sudo -H pip install pyspark --user
2.2配置
apache-spark的默认安装位置:/usr/local/Cellar/apache-spark/2.2.0
,其版本为目前最新的2.2.0版
# spark的配置
export SPARK_PATH="/usr/local/Cellar/apache-spark/2.2.0"
export PATH="$SPARK_PATH/bin:$PATH"
2.3运行
在Terminal中,输入pyspark
查看安装是否成功
三、pyspark的ipython环境
在jupyter notebook中使用pyspark,需要配置环境变量
# 基于python的版本,配置2或3
export PYSPARK_PYTHON="/Library/Frameworks/Python.framework/Versions/3.5/bin/python3.5"
export PYSPARK_DRIVER_PYTHON="/Library/Frameworks/Python.framework/Versions/3.5/bin/ipython3"
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
alias pysbook='$SPARK_PATH/bin/pyspark'
在terminal中输入pyspark
或者pysbook
(别名),可以直接运行带spark的ipython notebook。
参考链接:
【1】 stack overflow上的java环境配置
【2】 在mac上搭建spark+ipython环境
【3】Spark学习(一) — Spark安装及简介
【4】mac下Spark的安装与使用
【5】Spark安装和配置