amazon-web-services – AWS JupyterHub pyspark笔记本使用pandas模块

我有一个安装了JupyterHub的docker容器,在AWS集群上运行,如
https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-jupyterhub.html所述.它有Python 3内核,PySpark 3,PySpark,SparkR和Spark内核,并且在容器内部安装了conda和许多其他python包,但没有火花.问题是当我运行pyspark或pyspark3内核时,它连接到spark,安装在主节点上(docker容器外),并且所有内部模块都不再适用于这个笔记本(虽然它们对python内核是可见的,但是在这种情况下火花是不可见的).

那么问题是如何使docker中的模块安装在pyspark / pyspark3笔记本中并且可见?我认为我缺少的设置中有一些东西.

我正在寻找在一个笔记本中使用docker内部安装的模块以及外部安装的spark的方法.

到目前为止,我只能得到一个或另一个.

最佳答案 我刚刚在
https://blog.chezo.uno/livy-jupyter-notebook-sparkmagic-powerful-easy-notebook-for-data-scientist-a8b72345ea2d
https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-jupyter-notebook-kernels找到了答案的一半.秘诀是在单元格中使用%% local magic,这样我们就可以访问本地安装的python模块(在docker容器中).现在我只是不知道如何坚持在笔记本的“pyspark部分”中创建的pandas数据帧,因此它可以在“本地”部分使用.

点赞