我使用 ALS.train()训练了一个 MatrixFactorizationModel模型,现在使用 model.recommendProducts(user, num)来获得推荐的最佳产品,但是代码在某些用户上失败…
标签:apache-spark
apache-spark – 在localhost上运行的Spark BlockManager
我有一个简单的脚本文件,我试图在模拟教程 here的spark-shell中执行 import org.apache.spark.SparkConf import org.apache.spark.SparkContex…
apache-spark – 什么因素同时影响多少火花工作
我们最近已经设置了提交火花作业的 Spark Job Server.但我们发现我们的20个节点(每个节点8个核心/ 128G内存)火花集群只能同时运行10个火花作业. 有人可以分享一些有关哪些因素会影响同时运行多少个火花…
apache-spark – 递归监视HDFS目录的spark流
我需要通过使用spark streaming来从HDFS direcory流式传输数据. JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8…
apache-spark – 如何在SparkR中进行映射和缩减
如何使用SparkR进行映射和减少操作?我能找到的只是关于SQL查询的东西.有没有办法做地图并减少使用SQL? 最佳答案 有关示例,请参阅 Writing R data frames returned from Spar…
apache-spark – 火花任务规模太大了
我正在使用LBFGS逻辑回归将示例分类为两个类别之一.什么时候,我正在训练模型,我收到很多这样的警告 – WARN scheduler.TaskSetManager: Stage 132 contains a task …
apache-spark – Spark Parquet“数据库”的设计
我每天都有100G文本文件,我希望创建一个可从Spark访问的高效“数据库”. “数据库”是指能够对数据执行快速查询(返回大约一年),并且每天增量添加数据,最好没有读锁定. 假设我想使用Spark SQL和镶木地板,那么…
apache-spark – 使用选项启动pyspark时出错(没有Spack包)
任何人都可以告诉我为什么我得到下面的错误?根据 pyspark-cassandra连接器的README,我在下面尝试的应该工作(没有Spark包): https://github.com/TargetHolding/py…
apache-spark – 如何远程连接JMX到Dataproc上的Spark worker
我可以通过添加以下内容连接到驱动程序: spark.driver.extraJavaOptions=-Dcom.sun.management.jmxremote \ -Dcom.sun.management.jmxrem…
apache-spark – Spark Cosine Similarity(DIMSUM算法)稀疏输入文件
我想知道Spark Cosine Similarity是否可以使用Sparse输入数据?我见过一些例子,其中输入由以下形式的空格分隔的特征线组成: id feat1 feat2 feat3 ... 但我有一个固有的稀疏,…
apache-spark – 为什么Spark 1.6.1中的Spark SQL不在CTAS中使用广播连接?
我在Spark SQL中有一个查询正在使用广播连接,因为我的表b小于spark.sql.autoBroadcastJoinThreshold. 但是,如果我将完全相同的select查询放入CTAS查询中,那么由于某种原因…
apache-spark – 为什么我的任务在Spark UI中超过了任务总数?
我以为成功将等于总加或减失败. 这些数字来自哪里? 这些数字是否表明存在问题,或者它们是否重要? 最佳答案 第一个数字(3660)是成功任务的数量.第二个数字(1830)是阶段中的任务数量.您的阶段运行了两次,因此成功任…