我正在使用LBFGS逻辑回归将示例分类为两个类别之一.什么时候,我正在训练模型,我收到很多这样的警告 – WARN scheduler.TaskSetManager: Stage 132 contains a task …
标签:apache-spark
apache-spark – 如何管理冲突的DataProc Guava,Protobuf和GRPC依赖项
我正在开发一个需要使用 java库(youtube / vitess)的scala Spark作业,它依赖于比DataProc 1.1上提供的更新版本的GRPC(1.01),Guava(19.0)和Protobuf(3.…
apache-spark – 如何使用S3中的数据框访问多个json文件
我正在使用apapche spark.我想在日期的基础上从spark访问多个json文件.我如何选择多个文件,即我想提供以1034.json结尾的文件到以1434.json结尾的文件的范围.我正在尝试这个. DataFr…
apache-spark – Spark StreamingContext awaitTerminationOrTimeout
我正在调用streamingContext.awaitTerminationOrTimeout(timeout),但我想依赖于超时环境. 这意味着如果我的环境是UAT,我想停止工作,但如果我的环境是生产环境,我不希望它完…
apache-spark – 隐藏spark属性,使其不显示在spark web UI中,而无需实现安全过滤器
位于http://:4040的应用程序Web UI在“环境”选项卡中列出了Spark属性.将显示通过spark-defaults.conf,SparkConf或命令行显式指定的所有值.但是,出于安全原因,我不希望我的Ca…
apache-spark – Spark Parquet“数据库”的设计
我每天都有100G文本文件,我希望创建一个可从Spark访问的高效“数据库”. “数据库”是指能够对数据执行快速查询(返回大约一年),并且每天增量添加数据,最好没有读锁定. 假设我想使用Spark SQL和镶木地板,那么…
apache-spark – 使用选项启动pyspark时出错(没有Spack包)
任何人都可以告诉我为什么我得到下面的错误?根据 pyspark-cassandra连接器的README,我在下面尝试的应该工作(没有Spark包): https://github.com/TargetHolding/py…
性能 – DStreams的分区(对于updateStateByKey())如何工作以及如何验证它?
我正在使用updateStateByKey()操作来维护我的Spark Streaming应用程序中的状态.输入数据来自Kafka主题. >我想了解DStreams是如何分区的?>分区如何使用mapWithS…
apache-spark – 如何解决java.lang.OutOfMemoryError:在Spark中训练word2vec模型时的Java堆空间?
Solu:我把params驱动程序内存40G放在spark-submit中. 问:我的Spark集群由5个ubuntu服务器组成,每个服务器有80G内存和24个内核.word2vec大约是10G newsdata.我用这…