windos 安装jdk+hadoop +spark+pyspark

1.下载jdk1.8 jdk1.8地址

《windos 安装jdk+hadoop +spark+pyspark》

安装java环境变量 

因为我的javajdk在本地 C:\Java\jdk1.8.0_151 故此:

看清楚是环境变量还是系统变量 path java 跟hadoop 都要跟到bin下

《windos 安装jdk+hadoop +spark+pyspark》

《windos 安装jdk+hadoop +spark+pyspark》

《windos 安装jdk+hadoop +spark+pyspark》

测试一下java环境变量是否配置成功

win+r  启动命令窗口 里面输入 cmd

《windos 安装jdk+hadoop +spark+pyspark》

回车之后输入javac 如下 表示配置成功

《windos 安装jdk+hadoop +spark+pyspark》

2. 下载hadoop2.7 hadoop地址 

找到对应版本 本次使用hadoop2.7   windows 下安装hadoop

《windos 安装jdk+hadoop +spark+pyspark》

《windos 安装jdk+hadoop +spark+pyspark》

环境变量中添加HADOOP_HOME=C:\hadoop-2.7.4\hadoop-2.7.4

《windos 安装jdk+hadoop +spark+pyspark》

将C:\hadoop-2.7.4\hadoop-2.7.4\bin和C:\hadoop-2.7.4\hadoop-2.7.4sbin添加到path中。 

《windos 安装jdk+hadoop +spark+pyspark》

下载一个重要的东西

hadooponwindows 

地址:https://github.com/sardetushar/hadooponwindows

把原来hadoop  自带的 bin 目录下 与etc 目录下的东西都删掉

换成 hadooponwidows 里面的

《windos 安装jdk+hadoop +spark+pyspark》

修改配置文件 

1.etc/hadoop.core-site.xml

《windos 安装jdk+hadoop +spark+pyspark》

2:etc/hadoop/mapred-site.xml

《windos 安装jdk+hadoop +spark+pyspark》

3:etc/hadoop/hdfs-site.xml

《windos 安装jdk+hadoop +spark+pyspark》

4:etc\hadoop\yarn-site.xml

《windos 安装jdk+hadoop +spark+pyspark》

5:etc/hadoop/hadoop-env.cmd

《windos 安装jdk+hadoop +spark+pyspark》

执行操作

    1 .切换到etc/hadoop目录,运行hadoop-env.cmd

    2. 切换到bin目录然后,格式化HDFS文件系统,执行命令:hdfs namenode -format

    3、到这里,你的hadoop就可以正常使用了。可以查看一下版本,bin目录 执行 hadoop version

    4、启动 cd到hadoop的sbin目录,运行start-all.cmd\

    5、在浏览器中输入 http:\\localhost:8088打开hadoop的web管理网页即可。

《windos 安装jdk+hadoop +spark+pyspark》

3.下载spark spark地址

《windos 安装jdk+hadoop +spark+pyspark》

《windos 安装jdk+hadoop +spark+pyspark》

1,将spark所在目录下(比如我的是C:\spark-2.2.1-bin-hadoop2.7\spark-2.2.1-bin-hadoop2.7\python)的pyspark文件夹拷贝到python文件夹下(我的是C:\Python35\Lib\site-packages)

具体目录要看大家自己安装的时候是放在哪的!


《windos 安装jdk+hadoop +spark+pyspark》

《windos 安装jdk+hadoop +spark+pyspark》

2,安装py4j库

一般的在cmd命令行下 pip install py4j 就可以。若是没有将pip路径添加到path中,就将路径切换到python的Scripts中,然后再 pip install py4j 来安装库。

3,修改权限

将winutils.exe文件放到Hadoop的bin目录下(我的是C:\hadoop-2.7.4\hadoop-2.7.4\bin),然后以管理员的身份打开cmd,然后通过cd命令进入到Hadoop的bin目录下,然后执行以下命令:

winutils.exe chmod 777 c:\tmp\

《windos 安装jdk+hadoop +spark+pyspark》

然后启动命令行输入 pyspark

如下图 不报错就代表安装成功了

《windos 安装jdk+hadoop +spark+pyspark》

如有问题请留言感觉不错请打赏下 谢谢

    原文作者:a十二_4765
    原文地址: https://www.jianshu.com/p/ad14d310df3b
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞