标签：apache-spark

apache-spark – Apache Spark的非确定性来源

我试图找出Spark中所有非确定性的来源.我知道非确定性可以来自用户提供的功能,例如在地图(f)中,f涉及随机.相反,我正在寻找可能导致非确定性的操作,无论是在较低级别的转换/动作方面,例如改组. 最佳答案脱离我的头顶…

问题：在Spark本地模式下初始化SparkContext后,我无法观察到Log4J2的异步功能. SBT中的Log4j2依赖项： "com.lmax" % "disruptor" % "3.3.5", "org.apa…

我想写一个与dateiff类似的yeardiff函数. yeardiff应该获取两个Column参数并返回一个Column,其中包含这些参数列之间的年数. 我们使用以下示例数据： val testDf = Seq( ("…

我正在开发一个需要使用 java库(youtube / vitess)的scala Spark作业,它依赖于比DataProc 1.1上提供的更新版本的GRPC(1.01),Guava(19.0)和Protobuf(3.…

我面临一个奇怪的问题.据我所知,Spark中的操作DAG仅在执行操作时执行.但是,我可以看到reduceByKey()opertation(是一个转换)开始执行DAG. 重现步骤 .尝试下面的代码 SparkConf c…

我正在使用spark stream从kafka集群中读取数据.我想对DStream对进行排序并单独获得前N个.到目前为止,我已经使用了 val result = ds.reduceByKeyAndWindow((x: D…

有谁可以请指出这个活跃批次在那里停留数周并且从未被处理过的原因是什么？非常感谢. 我的猜测是执行者不够,更多的工人/执行者会解决这个问题？或者Spark在其任务调度程序中为不同批次分配优先级？但是这里的情况是,最近的批…

Spark 1.6.1版创建边缘和顶点RDD val vertices_raw = sqlContext.read.json("vertices.json.gz") val vertices = vertices_ra…

我无法弄清楚如何从Azure自动化图形Runbook启动HDInsight Spark 2.0.我有一个现有的Runbook,可以使用Spark 1.6与HDInsight配合使用.通常,我会将版本字符串从3.4更新到3…

我的代码就像： val config = ConfigFactory.load 它默认从application.conf获取键值对.然后我使用-Dconfig.file =指向另一个conf文件. 它适用于以下命令： d…

是否可以将spark rdd文本文件保存为gzip？我能以某种方式运行它：combPrdGrp3.repartition(10).saveAsTextFile(“Combined”)并将其保存为gzip文件？最佳答案…

文件名不以.gz结尾,我无法更改它们,因为它们与其他程序共享. file1.log.gz.processed只是一个csv文件.但是如何在pyspark中读取它,最好是在pyspark.sql中？我试图指定格式和压缩,…