分类：Spark

构建基于Spark的推荐系统

一、推荐模型的分类 1，基于内容的过滤利用物品的内容或是属性信息以及某些相似度定义，来求出与该物品类似的物品。 2，协同过滤利用大量已有用户偏好来估计用户对其未接触过的物品的喜好程度。 3，矩阵分解 a,显式…

Action/Transformation 所谓的Action与Transformation的区别： Action就是会触发DAGScheduler的runJob()方法，向DAGScheduler提交任务而已罢了；在…

DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。…

一、概述 word2vector 是google开源的一个生成词向量的工具，以语言模型为优化目标，迭代更新训练文本中的词向量，最终收敛获得词向量。词向量可以作为文本分析中重要的特征，在分类问题、标注问题等场景都有着重要的…

使用一个SparkContext时，可以针对不同的Job进行分组提交和取消：分组提交任务 // 提交任务 private SparkContext sc; private SQLContext sqlc; sc.set…

zookeeper安装 zookeeper3.4.6安装 spark高可用安装完成 spark高可用安装 hadoop安装 hadoop安装整合hadoop+spark 配置spark+hadoop HADOOP_CO…

在实际的项目环境中，成熟的技术体系对关系型数据库的依赖远远超过hdfs，而且对大数据运算的结果，实践中也倾向于保存到数据库中，以便进行多种方式的可视化。所以本次实践主要完成spark从mysql中读取和写入数据。一般这个…

近日莫名遭遇异常一枚，如下： org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 271.0 failed…

Spark技术实战之基础篇 -Scala语言从入门到精通为什么要学习Scala?源于Spark的流行，Spark是当前最流行的开源大数据内存计算框架，采用Scala语言实现，各大公司都在使用Spark：IBM宣布承诺大力…

spark工作原理 spark运行原理 Spark Streaming Storm的ack是干嘛的 kalfka干嘛的 job提交到yarn上的工作流程 10x+5y+z = n，x+y+z的最小值 ArryList、L…

spark的dataframe操作，其中map和flatmap挺绕头的，其实要理解也很简单，只需要记住一下即可： map是对dataframe的每一个row的操作。 flatmap是先map，再扁平化。具体示例我们可以…

前言版本 guava 版本 Spark 2.2.0 12.0.1 HBase 1.0.0-cdh5.6.0 20.0 由于guava的版本在16.0以后，不向后兼容，所以Spark程序中集成HBase是会报找不到依赖的…