标签：apache-spark

apache-spark – 如何使用Spark-Xml生成复杂的XML

我试图从我的 JavaRDd 和JavaRdd 我怎么能将这两个联合生成xml以下？ <xml> <library> <books> <book> <author&g…

我使用以下代码关闭Spark StreamingContext. 本质上,一个线程监视一个布尔开关,然后调用StreamingContext.stop(true,true) 一切似乎都在处理,我的所有数据似乎都已收集完毕…

我知道Hive Metastore用于存储我们在HIVE中创建的表的元数据,但为什么spark需要Metastore,Metastore和Spark之间的默认关系是什么 spark SQL是否正在使用metasore,如…

简而言之我想配置我的应用程序使用lz4压缩而不是snappy,我做的是： session = SparkSession.builder() .master(SPARK_MASTER) //local[1] .appNa…

我可以通过添加以下内容连接到驱动程序： spark.driver.extraJavaOptions=-Dcom.sun.management.jmxremote \ -Dcom.sun.management.jmxrem…

问题：在Spark本地模式下初始化SparkContext后,我无法观察到Log4J2的异步功能. SBT中的Log4j2依赖项： "com.lmax" % "disruptor" % "3.3.5", "org.apa…

如何将数据框中的数据写入HDFS中的单个.parquet文件(单个文件中的数据和元数据)？ df.show() --> 2 rows +------+--------------+----------------+…

我试图在火花流媒体工作中读取json数据. 默认情况下,sqlContext.read.json(rdd)将所有地图类型转换为结构类型. |-- legal_name: struct (nullable = true) …

我有一组机器,我必须与其他进程共享.让我们说我不是一个好人,并希望我的火花执行器流程比其他人的流程具有更高的优先级.我怎么设置？我正在使用在RHEL7上运行的StandAlone模式v2.01 最佳答案 Spark目前…

我是新兴的环境.我有列名的数据集如下： user_id,Date_time,order_quantity 我想计算每个user_id的order_quantity的第90个百分位数. 如果它是sql,我会使用以下查询： …

我无法弄清楚如何从Azure自动化图形Runbook启动HDInsight Spark 2.0.我有一个现有的Runbook,可以使用Spark 1.6与HDInsight配合使用.通常,我会将版本字符串从3.4更新到3…

有谁可以请指出这个活跃批次在那里停留数周并且从未被处理过的原因是什么？非常感谢. 我的猜测是执行者不够,更多的工人/执行者会解决这个问题？或者Spark在其任务调度程序中为不同批次分配优先级？但是这里的情况是,最近的批…