标签：apache-spark

apache-spark – Spark Streaming：在写入记录时抛出异常：BatchAllocationEvent

我使用以下代码关闭Spark StreamingContext. 本质上,一个线程监视一个布尔开关,然后调用StreamingContext.stop(true,true) 一切似乎都在处理,我的所有数据似乎都已收集完毕…

我知道Hive Metastore用于存储我们在HIVE中创建的表的元数据,但为什么spark需要Metastore,Metastore和Spark之间的默认关系是什么 spark SQL是否正在使用metasore,如…

我们需要考虑到后期数据或“不加入”来实现Kafka主题的连接,这意味着在流中迟到或不在连接中的数据不会被删除/丢失,但会被标记为超时, 生成连接的结果是输出Kafka主题(如果发生超时提交). (单独部署中的spark …

我正在尝试离线(再次)脱离某个sbt项目.事情几乎似乎没问题,但有些奇怪的事情让我感到困惑.这是我注意到的：我创建了一个空的sbt项目,并在考虑build.sbt中的以下依赖项： name := "sbtSand" v…

我正在使用updateStateByKey()操作来维护我的Spark Streaming应用程序中的状态.输入数据来自Kafka主题. >我想了解DStreams是如何分区的？>分区如何使用mapWithS…

每当我做一个dse spark-submit< jarname>时,它会复制SPARK_WORKER_DIR中的jar(在我的情况下是/ var / lib / spark-worker / worker-0…

我在这个例子中从createDataFrame调用中获取了StackOverflowError.它起源于涉及 java类型推理的scala代码,它在无限循环中调用自身. final EventParser parser …

我正在开发Hive(HDFS)中的SQL spark读取表中的代码. 问题是,当我在spark的shell中加载我的代码时,递归地传递以下消息： “WARN LazyStruct：在行尾检测到额外的字节！忽略类似的问题.…

您知道如何在Apache Storm中将Spout流数据传输到多个螺栓.有没有办法在Apache Spark中做类似的事情？我基本上希望有一个程序从Kafka Queue读取数据并将其输出到2个不同的程序,然后可以用不…

我试图从我的 JavaRDd 和JavaRdd 我怎么能将这两个联合生成xml以下？ <xml> <library> <books> <book> <author&g…

我在 Linux上运行spark-1.6.1,当我将spark-env.sh中的SPARK_DRIVER_MEMORY设置为4g并运行spark-shell时,我得到了这个： Invalid initial heap s…

我正试图从s3读取未压缩的thrift文件.到目前为止它还没有奏效. >数据作为未压缩的thrift文件加载到s3中.来源是AWS Kinesis Firehose.>我有一个工具可以反复排序文件,所以我知道…