我试图从我的 JavaRDd 和JavaRdd 我怎么能将这两个联合生成xml以下? <xml> <library> <books> <book> <author&g…
标签:apache-spark
apache-spark – Spark Streaming:在写入记录时抛出异常:BatchAllocationEvent
我使用以下代码关闭Spark StreamingContext. 本质上,一个线程监视一个布尔开关,然后调用StreamingContext.stop(true,true) 一切似乎都在处理,我的所有数据似乎都已收集完毕…
apache-spark – Spark和Metastore关系
我知道Hive Metastore用于存储我们在HIVE中创建的表的元数据,但为什么spark需要Metastore,Metastore和Spark之间的默认关系是什么 spark SQL是否正在使用metasore,如…
apache-spark – 如何在Spark本地模式下配置Executor
简而言之 我想配置我的应用程序使用lz4压缩而不是snappy,我做的是: session = SparkSession.builder() .master(SPARK_MASTER) //local[1] .appNa…
apache-spark – 如何远程连接JMX到Dataproc上的Spark worker
我可以通过添加以下内容连接到驱动程序: spark.driver.extraJavaOptions=-Dcom.sun.management.jmxremote \ -Dcom.sun.management.jmxrem…
apache-spark – 在Spark Scala应用程序中使用Log4J2进行异步日志记录
问题:在Spark本地模式下初始化SparkContext后,我无法观察到Log4J2的异步功能. SBT中的Log4j2依赖项: "com.lmax" % "disruptor" % "3.3.5", "org.apa…
apache-spark – 如何将数据帧中的数据写入HDFS中的单个.parquet文件(单个文件中的数据和元数据)?
如何将数据框中的数据写入HDFS中的单个.parquet文件(单个文件中的数据和元数据)? df.show() --> 2 rows +------+--------------+----------------+…
apache-spark – 使用sqlContext映射[String,String]的JSON Struct
我试图在火花流媒体工作中读取json数据. 默认情况下,sqlContext.read.json(rdd)将所有地图类型转换为结构类型. |-- legal_name: struct (nullable = true) …
apache-spark – 有没有办法设置spark执行器进程的niceness设置?
我有一组机器,我必须与其他进程共享.让我们说我不是一个好人,并希望我的火花执行器流程比其他人的流程具有更高的优先级.我怎么设置? 我正在使用在RHEL7上运行的StandAlone模式v2.01 最佳答案 Spark目前…
apache-spark – 在apache spark sql中等效的percentile_cont函数
我是新兴的环境.我有列名的数据集如下: user_id,Date_time,order_quantity 我想计算每个user_id的order_quantity的第90个百分位数. 如果它是sql,我会使用以下查询: …
如何使用Azure自动化从HDInsight启动Spark 2.0
我无法弄清楚如何从Azure自动化图形Runbook启动HDInsight Spark 2.0.我有一个现有的Runbook,可以使用Spark 1.6与HDInsight配合使用.通常,我会将版本字符串从3.4更新到3…
apache-spark – Spark Streaming:排长队/活跃批次
有谁可以请指出这个活跃批次在那里停留数周并且从未被处理过的原因是什么?非常感谢. 我的猜测是执行者不够,更多的工人/执行者会解决这个问题?或者Spark在其任务调度程序中为不同批次分配优先级? 但是这里的情况是,最近的批…