我正在调用streamingContext.awaitTerminationOrTimeout(timeout),但我想依赖于超时环境. 这意味着如果我的环境是UAT,我想停止工作,但如果我的环境是生产环境,我不希望它完…
标签:apache-spark
apache-spark – Spark流式传输JavaCustomReceiver
Spark在EMR客户端模式和集群模式下流式传输 java自定义接收器问题. 以下是问题. 当我们在EMR集群(yarn)上运行sparkCrayom的JavaCustomReceiver时,它会随机绑定一个执行器上…
apache-spark – 如何为Apache Spark集群手动部署第三方实用程序jar?
我有一个Apache Spark集群(多节点),我想手动将一些实用程序jar部署到每个Spark节点.我应该把这些罐放在哪里? 例如:spark-streaming-twitter_2.10-1.6.0.jar 我知道我…
apache-spark – 从dstream驱动程序中收集RDD的结果
我在驱动程序中有这个功能,它将rdds的结果收集到一个数组中并发回.但是,即使RDD(在dstream中)有数据,该函数也会返回一个空数组……我做错了什么? def runTopFunction() : Array[(S…
apache-spark – 如何将数据帧中的数据写入HDFS中的单个.parquet文件(单个文件中的数据和元数据)?
如何将数据框中的数据写入HDFS中的单个.parquet文件(单个文件中的数据和元数据)? df.show() --> 2 rows +------+--------------+----------------+…
apache-spark – 使用Spark连接到MS SQL Server
我正在尝试使用Spark JdbcRDD从SQL Server数据库加载数据.我正在使用Microsoft JDBC驱动程序的4.0版.这是一段代码: public JdbcRDD<Object[]> loa…
apache-spark – 检查点RDD ReliableCheckpointRDD与原始RDD具有不同数量的分区
我有两台机器的火花簇,当我运行火花流应用程序时,我得到以下错误: Exception in thread "main" org.apache.spark.SparkException: Checkpoint RDD Re…
apache-spark – 在apache spark sql中等效的percentile_cont函数
我是新兴的环境.我有列名的数据集如下: user_id,Date_time,order_quantity 我想计算每个user_id的order_quantity的第90个百分位数. 如果它是sql,我会使用以下查询: …
apache-spark – 重启Spark后,如何在Web UI中查看“已完成的应用程序”详细信息
我想在完成后通过Web UI检查Spark App.所以我将spark.eventLog.enabled设置为true,然后将spark.eventLog.dir设置为本地目录.然后当我点击已完成的应用程序名称时,它会显…