#解决bug#用spark做数据分析强烈推荐不要用pyspark

用spark解决大数据处理问题,强烈推荐scala语言,不要因为以前用python很六,就贪懒用pyspark。scala并没有特别难,尤其是只是想做大数据处理,不搞开发,一周绝对够了。

问题如下:
Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe

这个很经常报错,后来才发现是因为没有numpy这个块。这也是我不推荐用python的原因。这里这篇文字也写了Running Spark Python Applications :spark用java和scala写是完全独立的,但是python需要调用各种各样的包,很复杂。

解决上面那个问题查了一大堆资料,有说什么Py4JJavaError是由于内存不够引起的,根本不是啊,这是因为你的pyspark启用的python没有numpy板块。好好看看自己电脑的默认python是什么版本吧~~~~~~~~我的就是mac自带的,换到anaconda之后一切迎刃而解~~~~~

    原文作者:黄美英
    原文地址: https://zhuanlan.zhihu.com/p/48617936
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞