Pyoark中的hadoop – .cartesian()

我创建了rdd = sc.parallelize(range(200)).然后我设置rdd2 = rdd.cartesian(rdd).我发现正如预期的那样rdd2.count()是40,000.但是,当我设置rdd3 = rdd2.cartesian(rdd)时,rdd3.count()小于20,000.为什么会这样? 最佳答案 这是
SPARK-16589跟踪的错误.

点赞