我试图找出Spark中所有非确定性的来源.我知道非确定性可以来自用户提供的功能,例如在地图(f)中,f涉及随机.相反,我正在寻找可能导致非确定性的操作,无论是在较低级别的转换/动作方面,例如改组. 最佳答案 脱离我的头顶…
标签:apache-spark
apache-spark – 在Spark Scala应用程序中使用Log4J2进行异步日志记录
问题:在Spark本地模式下初始化SparkContext后,我无法观察到Log4J2的异步功能. SBT中的Log4j2依赖项: "com.lmax" % "disruptor" % "3.3.5", "org.apa…
apache-spark – 编写Spark函数,它接受Column参数并返回一个Column
我想写一个与dateiff类似的yeardiff函数. yeardiff应该获取两个Column参数并返回一个Column,其中包含这些参数列之间的年数. 我们使用以下示例数据: val testDf = Seq( ("…
apache-spark – 如何管理冲突的DataProc Guava,Protobuf和GRPC依赖项
我正在开发一个需要使用 java库(youtube / vitess)的scala Spark作业,它依赖于比DataProc 1.1上提供的更新版本的GRPC(1.01),Guava(19.0)和Protobuf(3.…
apache-spark – Apache Spark:为什么reduceByKey转换会执行DAG?
我面临一个奇怪的问题.据我所知,Spark中的操作DAG仅在执行操作时执行.但是,我可以看到reduceByKey()opertation(是一个转换)开始执行DAG. 重现步骤 .尝试下面的代码 SparkConf c…
apache-spark – Spark DStream排序并获取N个元素
我正在使用spark stream从kafka集群中读取数据.我想对DStream对进行排序并单独获得前N个.到目前为止,我已经使用了 val result = ds.reduceByKeyAndWindow((x: D…
apache-spark – Spark Streaming:排长队/活跃批次
有谁可以请指出这个活跃批次在那里停留数周并且从未被处理过的原因是什么?非常感谢. 我的猜测是执行者不够,更多的工人/执行者会解决这个问题?或者Spark在其任务调度程序中为不同批次分配优先级? 但是这里的情况是,最近的批…
apache-spark – 检查GraphX图形对象
Spark 1.6.1版 创建边缘和顶点RDD val vertices_raw = sqlContext.read.json("vertices.json.gz") val vertices = vertices_ra…
如何使用Azure自动化从HDInsight启动Spark 2.0
我无法弄清楚如何从Azure自动化图形Runbook启动HDInsight Spark 2.0.我有一个现有的Runbook,可以使用Spark 1.6与HDInsight配合使用.通常,我会将版本字符串从3.4更新到3…
apache-spark – 在spark-submit中替换默认的application.conf文件
我的代码就像: val config = ConfigFactory.load 它默认从application.conf获取键值对.然后我使用-Dconfig.file =指向另一个conf文件. 它适用于以下命令: d…
apache-spark – spark RDD saveAsTextFile gzip
是否可以将spark rdd文本文件保存为gzip? 我能以某种方式运行它:combPrdGrp3.repartition(10).saveAsTextFile(“Combined”)并将其保存为gzip文件? 最佳答案…
apache-spark – 如何在pyspark中加载gzip压缩的csv文件?
文件名不以.gz结尾,我无法更改它们,因为它们与其他程序共享. file1.log.gz.processed只是一个csv文件.但是如何在pyspark中读取它,最好是在pyspark.sql中? 我试图指定格式和压缩,…