协同过滤 算法介绍: 协同过滤常被用于推荐系统。这类技术目标在于填充“用户-商品”联系矩阵中的缺失项。Spark.ml目前支持基于模型的协同过滤,其中用户和商品以少量的潜在因子来描述,用以预测缺失项。Spark.ml使用…
分类:Spark
【Spark Java API】Transformation(4)—coalesce、repartition
coalesce 官方文档描述: Return a new RDD that is reduced into `numPartitions` partitions. 函数原型: def coalesce(numParti…
Spark load() 源码解析
本文git地址,转载请注明,感谢 Spark 读取数据 源码解析 问题描述 在使用spark读取HDFS上的数据时,经常使用load的方式(没有hive的情况下) spark.read.schema(schema).lo…
【spark】SparkSession的API
SparkSession是一个比较重要的类,它的功能的实现,肯定包含比较多的函数,这里介绍下它包含哪些函数。 builder函数public static SparkSession.Builder builder()创建…
Java-Maven(十):Maven 项目常用plugins
本文主要总结最近一段时间使用maven时,遇到需要maven plugins的一些简单总结。 1)在Build下重新指定最终打包报名 <build> <!--最终打包的包名,如果这里不指定,则默认包名为…
ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
15/06/11 15:35:50 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOExcept…
各种资源下载地址
清华大学开源软件镜像站 python库 python库-阿里源 scala Hadoop官方 Hadoop CentOS …
spark 2.4安装
1、spark 官网选择对应Hadoop的版本,之前安装的Hadoop版本为hadoop-3.0.2,获取下载包: wget http://mirrors.hust.edu.cn/apache/spark/spark-2…
Spark推测执行解决SparkStreaming任务task卡死问题
背景:测试环境运行一个SparkStreaming任务,yarn-cluster模式,duration为5分钟一个批次,每个批次平均2000w条records,并行度为60 资源配置为: ${SPARK_HOME}/bi…
【Spark】---- 在Linux集群上安装和配置Spark
1 安装JDK 1) 进入JDK官网 2) 下载JDK安装包 3)配置环境变量,在/etc/profile增加以下代码 JAVA_HOME=/home/hadoop/jdk1.6.0_38 PATH=$JA…
spark--环境搭建--3.Hive0.13搭建
在spark1上操作 1. 安装hive $ cd /usr/local/ $ tar -zxvf apache-hive-0.13.1-bin.tar.gz $ mv apache-hive-0.13.1-bin hi…
Spark之abort stage
NOTE:本文要求读者对spark的运行原理有基本的了解。 需要明确的一点是,abort不同于fail。如果一个stage fail了,那么它还有可能被resubmit,然后重新执行。而如果一个stage abort了,…