我使用以下代码关闭Spark StreamingContext. 本质上,一个线程监视一个布尔开关,然后调用StreamingContext.stop(true,true) 一切似乎都在处理,我的所有数据似乎都已收集完毕…
标签:apache-spark
apache-spark – Spark和Metastore关系
我知道Hive Metastore用于存储我们在HIVE中创建的表的元数据,但为什么spark需要Metastore,Metastore和Spark之间的默认关系是什么 spark SQL是否正在使用metasore,如…
apache-spark – Spark流媒体加入Kafka主题比较
我们需要考虑到后期数据或“不加入”来实现Kafka主题的连接,这意味着在流中迟到或不在连接中的数据不会被删除/丢失,但会被标记为超时, 生成连接的结果是输出Kafka主题(如果发生超时提交). (单独部署中的spark …
apache-spark – sbt,常春藤,离线工作和怪异
我正在尝试离线(再次)脱离某个sbt项目.事情几乎似乎没问题,但有些奇怪的事情让我感到困惑.这是我注意到的: 我创建了一个空的sbt项目,并在考虑build.sbt中的以下依赖项: name := "sbtSand" v…
性能 – DStreams的分区(对于updateStateByKey())如何工作以及如何验证它?
我正在使用updateStateByKey()操作来维护我的Spark Streaming应用程序中的状态.输入数据来自Kafka主题. >我想了解DStreams是如何分区的?>分区如何使用mapWithS…
apache-spark – Spark清理工作没有运行
每当我做一个dse spark-submit< jarname>时,它会复制SPARK_WORKER_DIR中的jar(在我的情况下是/ var / lib / spark-worker / worker-0…
apache-spark – avro类型的createDataFrame中的无限递归
我在这个例子中从createDataFrame调用中获取了StackOverflowError.它起源于涉及 java类型推理的scala代码,它在无限循环中调用自身. final EventParser parser …
apache-spark – LazyStruct:在行尾检测到额外的字节!忽略类似的问题
我正在开发Hive(HDFS)中的SQL spark读取表中的代码. 问题是,当我在spark的shell中加载我的代码时,递归地传递以下消息: “WARN LazyStruct:在行尾检测到额外的字节!忽略类似的问题.…
apache-spark – Apache Spark中的类似风暴的结构
您知道如何在Apache Storm中将Spout流数据传输到多个螺栓.有没有办法在Apache Spark中做类似的事情? 我基本上希望有一个程序从Kafka Queue读取数据并将其输出到2个不同的程序,然后可以用不…
apache-spark – 如何使用Spark-Xml生成复杂的XML
我试图从我的 JavaRDd 和JavaRdd 我怎么能将这两个联合生成xml以下? <xml> <library> <books> <book> <author&g…
apache-spark – spark-shell:初始堆大小无效
我在 Linux上运行spark-1.6.1,当我将spark-env.sh中的SPARK_DRIVER_MEMORY设置为4g并运行spark-shell时,我得到了这个: Invalid initial heap s…
apache-spark – 在spark中读取未压缩的thrift文件
我正试图从s3读取未压缩的thrift文件.到目前为止它还没有奏效. >数据作为未压缩的thrift文件加载到s3中.来源是AWS Kinesis Firehose.>我有一个工具可以反复排序文件,所以我知道…