我正在开发Hive(HDFS)中的SQL spark读取表中的代码. 问题是,当我在spark的shell中加载我的代码时,递归地传递以下消息: “WARN LazyStruct:在行尾检测到额外的字节!忽略类似的问题.…
标签:apache-spark
apache-spark – 为什么Spark 1.6.1中的Spark SQL不在CTAS中使用广播连接?
我在Spark SQL中有一个查询正在使用广播连接,因为我的表b小于spark.sql.autoBroadcastJoinThreshold. 但是,如果我将完全相同的select查询放入CTAS查询中,那么由于某种原因…
apache-spark – 递归监视HDFS目录的spark流
我需要通过使用spark streaming来从HDFS direcory流式传输数据. JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8…
apache-spark – spark-shell:初始堆大小无效
我在 Linux上运行spark-1.6.1,当我将spark-env.sh中的SPARK_DRIVER_MEMORY设置为4g并运行spark-shell时,我得到了这个: Invalid initial heap s…
apache-spark – 在spark中读取未压缩的thrift文件
我正试图从s3读取未压缩的thrift文件.到目前为止它还没有奏效. >数据作为未压缩的thrift文件加载到s3中.来源是AWS Kinesis Firehose.>我有一个工具可以反复排序文件,所以我知道…
apache-spark – Spark清理工作没有运行
每当我做一个dse spark-submit< jarname>时,它会复制SPARK_WORKER_DIR中的jar(在我的情况下是/ var / lib / spark-worker / worker-0…
apache-spark – avro类型的createDataFrame中的无限递归
我在这个例子中从createDataFrame调用中获取了StackOverflowError.它起源于涉及 java类型推理的scala代码,它在无限循环中调用自身. final EventParser parser …
apache-spark – 在spark-submit中替换默认的application.conf文件
我的代码就像: val config = ConfigFactory.load 它默认从application.conf获取键值对.然后我使用-Dconfig.file =指向另一个conf文件. 它适用于以下命令: d…
apache-spark – 什么因素同时影响多少火花工作
我们最近已经设置了提交火花作业的 Spark Job Server.但我们发现我们的20个节点(每个节点8个核心/ 128G内存)火花集群只能同时运行10个火花作业. 有人可以分享一些有关哪些因素会影响同时运行多少个火花…
apache-spark – 如何为Apache Spark集群手动部署第三方实用程序jar?
我有一个Apache Spark集群(多节点),我想手动将一些实用程序jar部署到每个Spark节点.我应该把这些罐放在哪里? 例如:spark-streaming-twitter_2.10-1.6.0.jar 我知道我…
apache-spark – sbt,常春藤,离线工作和怪异
我正在尝试离线(再次)脱离某个sbt项目.事情几乎似乎没问题,但有些奇怪的事情让我感到困惑.这是我注意到的: 我创建了一个空的sbt项目,并在考虑build.sbt中的以下依赖项: name := "sbtSand" v…
apache-spark – Spark Error – Value Text文件不是org.apache.spark.sparkcontext的成员
我刚开始使用Apache spark.当我尝试RDD文件时,我收到错误: 值Textfile不是org.apache.spark.SparkContext的成员. 这是我输入的内容: val data1 = sc.tex…