参考了http://blog.cloudera.com/blog/2014/04/how-to-run-a-simple-apache-spark-app-in-cdh-5/https://github.com/sryz…
标签:apache-spark
apache-spark – 如何在流用例中更新大型广播变量?
我有一个用例,我有一个流作业运行从kafka队列获取输入数据.我有一百万行的参考数据,每小时更新一次.我在驱动程序中加载参考数据,然后将其广播给工作人员.我想更新这个广播变量(在驱动程序中)并将其重新发送给工作人员. 如…
apache-spark – 如何解决java.lang.OutOfMemoryError:在Spark中训练word2vec模型时的Java堆空间?
Solu:我把params驱动程序内存40G放在spark-submit中. 问:我的Spark集群由5个ubuntu服务器组成,每个服务器有80G内存和24个内核.word2vec大约是10G newsdata.我用这…
apache-spark – 对Spark SQL查询返回的行的非序数访问
在Spark文档中,声明Spark SQL查询的结果是SchemaRDD.这个SchemaRDD的每一行都可以通过序数访问.我想知道是否有任何方法可以使用案例类的字段名称来访问列,在这些字段名称的基础上构建SQL查询.我…
apache-spark – 使用sqlContext映射[String,String]的JSON Struct
我试图在火花流媒体工作中读取json数据. 默认情况下,sqlContext.read.json(rdd)将所有地图类型转换为结构类型. |-- legal_name: struct (nullable = true) …
apache-spark – 在多个核心上运行时,Spark作业中的hadoop bz2库失败
我目前在使用Spark和读取bz2文件时遇到问题.我正在使用Spark 1.2.0(preoilt for hadoop 2.4,但文件目前只在本地读取).对于测试,有大约1500个文件,每个文件大小约为50KB. 以下…
apache-spark – 隐藏spark属性,使其不显示在spark web UI中,而无需实现安全过滤器
位于http://:4040的应用程序Web UI在“环境”选项卡中列出了Spark属性.将显示通过spark-defaults.conf,SparkConf或命令行显式指定的所有值.但是,出于安全原因,我不希望我的Ca…
apache-spark – 有没有办法设置spark执行器进程的niceness设置?
我有一组机器,我必须与其他进程共享.让我们说我不是一个好人,并希望我的火花执行器流程比其他人的流程具有更高的优先级.我怎么设置? 我正在使用在RHEL7上运行的StandAlone模式v2.01 最佳答案 Spark目前…
apache-spark – 如何在Spark本地模式下配置Executor
简而言之 我想配置我的应用程序使用lz4压缩而不是snappy,我做的是: session = SparkSession.builder() .master(SPARK_MASTER) //local[1] .appNa…
apache-spark – Spark Error – Value Text文件不是org.apache.spark.sparkcontext的成员
我刚开始使用Apache spark.当我尝试RDD文件时,我收到错误: 值Textfile不是org.apache.spark.SparkContext的成员. 这是我输入的内容: val data1 = sc.tex…
apache-spark – 如何使用S3中的数据框访问多个json文件
我正在使用apapche spark.我想在日期的基础上从spark访问多个json文件.我如何选择多个文件,即我想提供以1034.json结尾的文件到以1434.json结尾的文件的范围.我正在尝试这个. DataFr…
apache-spark – 我可以使用哪些工具/框架进行火花作业监控和警报?
我们几乎没有火花批量作业和流媒体作业. Spark批量作业正在Google云VM上运行,Spark流式作业正在Google Dataproc群集上运行.管理这些工作变得越来越困难.所以我们想要实施一些机制来监控工作的健康…