标签：apache-spark

apache-spark – Spark StreamingContext awaitTerminationOrTimeout

我正在调用streamingContext.awaitTerminationOrTimeout(timeout),但我想依赖于超时环境. 这意味着如果我的环境是UAT,我想停止工作,但如果我的环境是生产环境,我不希望它完…

Spark在EMR客户端模式和集群模式下流式传输 java自定义接收器问题. 以下是问题. 当我们在EMR集群(yarn)上运行sparkCrayom的JavaCustomReceiver时,它会随机绑定一个执行器上…

我有一个Apache Spark集群(多节点),我想手动将一些实用程序jar部署到每个Spark节点.我应该把这些罐放在哪里？例如：spark-streaming-twitter_2.10-1.6.0.jar 我知道我…

我在驱动程序中有这个功能,它将rdds的结果收集到一个数组中并发回.但是,即使RDD(在dstream中)有数据,该函数也会返回一个空数组……我做错了什么？ def runTopFunction() : Array[(S…

如何将数据框中的数据写入HDFS中的单个.parquet文件(单个文件中的数据和元数据)？ df.show() --> 2 rows +------+--------------+----------------+…

我正在尝试使用Spark JdbcRDD从SQL Server数据库加载数据.我正在使用Microsoft JDBC驱动程序的4.0版.这是一段代码： public JdbcRDD<Object[]> loa…

我有两台机器的火花簇,当我运行火花流应用程序时,我得到以下错误： Exception in thread "main" org.apache.spark.SparkException: Checkpoint RDD Re…

我是新兴的环境.我有列名的数据集如下： user_id,Date_time,order_quantity 我想计算每个user_id的order_quantity的第90个百分位数. 如果它是sql,我会使用以下查询： …

我想在完成后通过Web UI检查Spark App.所以我将spark.eventLog.enabled设置为true,然后将spark.eventLog.dir设置为本地目录.然后当我点击已完成的应用程序名称时,它会显…