用spark解决大数据处理问题,强烈推荐scala语言,不要因为以前用python很六,就贪懒用pyspark。scala并没有特别难,尤其是只是想做大数据处理,不搞开发,一周绝对够了。
这个很经常报错,后来才发现是因为没有numpy这个块。这也是我不推荐用python的原因。这里这篇文字也写了Running Spark Python Applications :spark用java和scala写是完全独立的,但是python需要调用各种各样的包,很复杂。
解决上面那个问题查了一大堆资料,有说什么Py4JJavaError是由于内存不够引起的,根本不是啊,这是因为你的pyspark启用的python没有numpy板块。好好看看自己电脑的默认python是什么版本吧~~~~~~~~我的就是mac自带的,换到anaconda之后一切迎刃而解~~~~~