标签：apache-spark

apache-spark – MLlib MatrixFactorizationModel recommendedProducts(user,num)对某些用户失败

我使用 ALS.train()训练了一个 MatrixFactorizationModel模型,现在使用 model.recommendProducts(user, num)来获得推荐的最佳产品,但是代码在某些用户上失败…

我有一个简单的脚本文件,我试图在模拟教程 here的spark-shell中执行 import org.apache.spark.SparkConf import org.apache.spark.SparkContex…

我们最近已经设置了提交火花作业的 Spark Job Server.但我们发现我们的20个节点(每个节点8个核心/ 128G内存)火花集群只能同时运行10个火花作业. 有人可以分享一些有关哪些因素会影响同时运行多少个火花…

我需要通过使用spark streaming来从HDFS direcory流式传输数据. JavaDStream<String> lines = ssc.textFileStream("hdfs://ip:8…

如何使用SparkR进行映射和减少操作？我能找到的只是关于SQL查询的东西.有没有办法做地图并减少使用SQL？最佳答案有关示例,请参阅 Writing R data frames returned from Spar…

我正在使用LBFGS逻辑回归将示例分类为两个类别之一.什么时候,我正在训练模型,我收到很多这样的警告 – WARN scheduler.TaskSetManager: Stage 132 contains a task …

我每天都有100G文本文件,我希望创建一个可从Spark访问的高效“数据库”. “数据库”是指能够对数据执行快速查询(返回大约一年),并且每天增量添加数据,最好没有读锁定. 假设我想使用Spark SQL和镶木地板,那么…

任何人都可以告诉我为什么我得到下面的错误？根据 pyspark-cassandra连接器的README,我在下面尝试的应该工作(没有Spark包)： https://github.com/TargetHolding/py…

我可以通过添加以下内容连接到驱动程序： spark.driver.extraJavaOptions=-Dcom.sun.management.jmxremote \ -Dcom.sun.management.jmxrem…

我想知道Spark Cosine Similarity是否可以使用Sparse输入数据？我见过一些例子,其中输入由以下形式的空格分隔的特征线组成： id feat1 feat2 feat3 ... 但我有一个固有的稀疏,…

我在Spark SQL中有一个查询正在使用广播连接,因为我的表b小于spark.sql.autoBroadcastJoinThreshold. 但是,如果我将完全相同的select查询放入CTAS查询中,那么由于某种原因…

我以为成功将等于总加或减失败. 这些数字来自哪里？这些数字是否表明存在问题,或者它们是否重要？最佳答案第一个数字(3660)是成功任务的数量.第二个数字(1830)是阶段中的任务数量.您的阶段运行了两次,因此成功任…