参考了http://blog.cloudera.com/blog/2014/04/how-to-run-a-simple-apache-spark-app-in-cdh-5/https://github.com/sryz…
标签:apache-spark
apache-spark – 为什么我的任务在Spark UI中超过了任务总数?
我以为成功将等于总加或减失败. 这些数字来自哪里? 这些数字是否表明存在问题,或者它们是否重要? 最佳答案 第一个数字(3660)是成功任务的数量.第二个数字(1830)是阶段中的任务数量.您的阶段运行了两次,因此成功任…
apache-spark – 如何在SparkR中进行映射和缩减
如何使用SparkR进行映射和减少操作?我能找到的只是关于SQL查询的东西.有没有办法做地图并减少使用SQL? 最佳答案 有关示例,请参阅 Writing R data frames returned from Spar…
apache-spark – Spark Cosine Similarity(DIMSUM算法)稀疏输入文件
我想知道Spark Cosine Similarity是否可以使用Sparse输入数据?我见过一些例子,其中输入由以下形式的空格分隔的特征线组成: id feat1 feat2 feat3 ... 但我有一个固有的稀疏,…
apache-spark – 重启Spark后,如何在Web UI中查看“已完成的应用程序”详细信息
我想在完成后通过Web UI检查Spark App.所以我将spark.eventLog.enabled设置为true,然后将spark.eventLog.dir设置为本地目录.然后当我点击已完成的应用程序名称时,它会显…
apache-spark – 在localhost上运行的Spark BlockManager
我有一个简单的脚本文件,我试图在模拟教程 here的spark-shell中执行 import org.apache.spark.SparkConf import org.apache.spark.SparkContex…
apache-spark – 从dstream驱动程序中收集RDD的结果
我在驱动程序中有这个功能,它将rdds的结果收集到一个数组中并发回.但是,即使RDD(在dstream中)有数据,该函数也会返回一个空数组……我做错了什么? def runTopFunction() : Array[(S…
apache-spark – 在多个核心上运行时,Spark作业中的hadoop bz2库失败
我目前在使用Spark和读取bz2文件时遇到问题.我正在使用Spark 1.2.0(preoilt for hadoop 2.4,但文件目前只在本地读取).对于测试,有大约1500个文件,每个文件大小约为50KB. 以下…
apache-spark – 使用Spark连接到MS SQL Server
我正在尝试使用Spark JdbcRDD从SQL Server数据库加载数据.我正在使用Microsoft JDBC驱动程序的4.0版.这是一段代码: public JdbcRDD<Object[]> loa…
apache-spark – 对Spark SQL查询返回的行的非序数访问
在Spark文档中,声明Spark SQL查询的结果是SchemaRDD.这个SchemaRDD的每一行都可以通过序数访问.我想知道是否有任何方法可以使用案例类的字段名称来访问列,在这些字段名称的基础上构建SQL查询.我…
apache-spark – Spark流媒体加入Kafka主题比较
我们需要考虑到后期数据或“不加入”来实现Kafka主题的连接,这意味着在流中迟到或不在连接中的数据不会被删除/丢失,但会被标记为超时, 生成连接的结果是输出Kafka主题(如果发生超时提交). (单独部署中的spark …
apache-spark – 我可以使用哪些工具/框架进行火花作业监控和警报?
我们几乎没有火花批量作业和流媒体作业. Spark批量作业正在Google云VM上运行,Spark流式作业正在Google Dataproc群集上运行.管理这些工作变得越来越困难.所以我们想要实施一些机制来监控工作的健康…