Spark搭建经验积累

2024年5月15日 161次阅读来源: 栗子

昨天下午提交了第一个Spark程序：把搜集到的200M的电影字幕语料，500M的微博语料，以及几十M的保险问答语料，按每行一个句子的顺序，依次分词，送到Spark的Word2Vec中训练embedding矩阵。

运行一夜没啥问题，早晨10点多进入Word2Vec之后，突然遭遇Java OutOfMember崩溃了。不得不考虑性能问题。

原始的环境是个4c4g的阿里云服务器，只在单节点上安装了Spark。

nohup spark-submit --master local[2] --py-files CorpusWord2Vec.py --name CorpusWord2Vec CorpusWord2Vec.py > /data/code/alps_chatbot/spark_submit.out 2>&1 &

先解决Java堆空间的问题。

简单解决就是增加driver和executor的内存堆空间：

--driver-memory 2g
--executor-memory 2g

启动spark master：

sbin/start-master.sh -h 0.0.0.0 -p 40001 --webui-port 40002

在本机上启动spark worker

sbin/start-slave.sh spark://172.31.66.28:40001 -c 2 -m 2g

    原文作者：栗子
    原文地址: https://zhuanlan.zhihu.com/p/34942875
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。