标签：apache-spark

idea maven 编译 spark

参考了http://blog.cloudera.com/blog/2014/04/how-to-run-a-simple-apache-spark-app-in-cdh-5/https://github.com/sryz…

我有一个用例,我有一个流作业运行从kafka队列获取输入数据.我有一百万行的参考数据,每小时更新一次.我在驱动程序中加载参考数据,然后将其广播给工作人员.我想更新这个广播变量(在驱动程序中)并将其重新发送给工作人员. 如…

Solu：我把params驱动程序内存40G放在spark-submit中. 问：我的Spark集群由5个ubuntu服务器组成,每个服务器有80G内存和24个内核.word2vec大约是10G newsdata.我用这…

在Spark文档中,声明Spark SQL查询的结果是SchemaRDD.这个SchemaRDD的每一行都可以通过序数访问.我想知道是否有任何方法可以使用案例类的字段名称来访问列,在这些字段名称的基础上构建SQL查询.我…

我试图在火花流媒体工作中读取json数据. 默认情况下,sqlContext.read.json(rdd)将所有地图类型转换为结构类型. |-- legal_name: struct (nullable = true) …

我目前在使用Spark和读取bz2文件时遇到问题.我正在使用Spark 1.2.0(preoilt for hadoop 2.4,但文件目前只在本地读取).对于测试,有大约1500个文件,每个文件大小约为50KB. 以下…

位于http：//：4040的应用程序Web UI在“环境”选项卡中列出了Spark属性.将显示通过spark-defaults.conf,SparkConf或命令行显式指定的所有值.但是,出于安全原因,我不希望我的Ca…

我有一组机器,我必须与其他进程共享.让我们说我不是一个好人,并希望我的火花执行器流程比其他人的流程具有更高的优先级.我怎么设置？我正在使用在RHEL7上运行的StandAlone模式v2.01 最佳答案 Spark目前…

简而言之我想配置我的应用程序使用lz4压缩而不是snappy,我做的是： session = SparkSession.builder() .master(SPARK_MASTER) //local[1] .appNa…

我刚开始使用Apache spark.当我尝试RDD文件时,我收到错误：值Textfile不是org.apache.spark.SparkContext的成员. 这是我输入的内容： val data1 = sc.tex…

我正在使用apapche spark.我想在日期的基础上从spark访问多个json文件.我如何选择多个文件,即我想提供以1034.json结尾的文件到以1434.json结尾的文件的范围.我正在尝试这个. DataFr…

我们几乎没有火花批量作业和流媒体作业. Spark批量作业正在Google云VM上运行,Spark流式作业正在Google Dataproc群集上运行.管理这些工作变得越来越困难.所以我们想要实施一些机制来监控工作的健康…