同时使用SparkR和Sparklyr

据我所知,这两个软件包为Apache Spark提供了类似但大多不同的包装函数. Sparklyr更新,仍然需要在功能范围内发展.因此,我认为当前需要使用这两个包来获得全部功能.

由于两个软件包实际上都包含了对scala类的Java实例的引用,我猜应该可以并行使用这些软件包.但它真的可能吗?你最好的做法是什么?

最佳答案 这两个包使用不同的机制,并不是为互操作性而设计的.它们的内部设计以不同的方式设计,并且不以相同的方式暴露JVM后端.

虽然人们可以想到一些允许部分数据共享的解决方案(使用全局临时视图,并且考虑到持久性Metastore),但它的应用程序相当有限.

如果您需要两者,我建议将您的管道分成多个步骤,并使用持久存储在这些步骤之间传递数据.

点赞