参考http://www.powerxing.com/spark-quick-start-guide/#more-291
和
http://www.thebigdata.cn/Hadoop/29516.html
Spark会用到HDFS和YARN。
安装环境:
ubuntu 14.04 ,64位
hadoop 2.6
1、下载
下载spark-1.6.0-bin-without-hadoop.tgz(我这里安装发现下载spark-1.6.1-bin-hadoop2.6.tgz的结果是一样的)
2、解压缩安装包
sudo tar -zxf ~/下载/spark-1.6.0-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-1.6.0-bin-without-hadoop/ ./spark
sudo chown -R hadoop:hadoop ./spark # 此处的 hadoop 为你的用户名
3、重命名spark-env.sh.template文件
cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
在上面的文件中加入Spark的环境变量
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
即可在单机上运行spark-shell、spark-submit等。
结束。
另:
1、如果是要跑集群的话,还需要修改hadoop-env.sh文件和slaves文件。
2、我在机器上安装了scala环境,如下是我的~/.bashrc文件中的环境变量:
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin
export JAVA_HOME=/usr/lib/jvm/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export SPARK_HOME=/usr/local/spark
export PATH=$SPARK_HOME/bin:$PATH
export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
export SPARK_MASTER=localhost
export SPARK_LOCAL_IP=localhost
export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin:$PATH