spark源码编译过程

 本文环境: Scala 2.11.8 、Maven 3.3.9 、 Spark 2.3.0

1.下载源码 《spark源码编译过程》 1.png

原因:
1.spark对应不同的hadoop版本有不同的支持
2.方便后期对源码的更改,并进行编译

需要注意

《spark源码编译过程》 2.png

spark文件夹中的pom文件需要修改maven的路径

《spark源码编译过程》 3.png

pom 文件修改, 默认的是Apache的源,建议改成cdh的源,避免很多坑

《spark源码编译过程》 WechatIMG5992.jpeg

特别注意 :需要有目录创建的权限!!!

最后是打包编译的命令:

./dev/make-distribution.sh –name 2.6.0-cdh5.7.0 –tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

  • –name之后的custom-spark是编译好后生成的那个tgz文件的文件名,可以自定义
  • Phadoop要根据自己已经安装好了的hadoop版本写
  • 如果要运行R语言请加上-Psparkr,否则请省略以提高编译速度
  • 如果要使用mesos请加上-Pmesos,否则请省略以提高编译速度

结果

《spark源码编译过程》 5.png

至此,就可以开心的开始玩耍了! 

日常吐槽: 今天从早上9点整到差不多4点,不停排错,最后发现原因只是因为没有创建目录的权限! 心累 – – ,以后出问题一定要仔细查看日志!!!!!

    原文作者:番茄ozz
    原文地址: https://www.jianshu.com/p/8e4bc37af354
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞