一、推荐模型的分类 1,基于内容的过滤 利用物品的内容或是属性信息以及某些相似度定义,来求出与该物品类似的物品。 2,协同过滤 利用大量已有用户偏好来估计用户对其未接触过的物品的喜好程度。 3,矩阵分解 a,显式…
分类:Spark
Spark几个概念梳理(Action/Transformation)和DAGScheduler调度算法
Action/Transformation 所谓的Action与Transformation的区别: Action就是会触发DAGScheduler的runJob()方法,向DAGScheduler提交任务而已罢了; 在…
7.Spark学习(Python版本):Spark SQL中的DataFrame的操作
DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询。…
第二篇: 词向量之Spark word2vector实战
一、概述 word2vector 是google开源的一个生成词向量的工具,以语言模型为优化目标,迭代更新训练文本中的词向量,最终收敛获得词向量。词向量可以作为文本分析中重要的特征,在分类问题、标注问题等场景都有着重要的…
如何取消已经提交的Spark任务
使用一个SparkContext时,可以针对不同的Job进行分组提交和取消: 分组提交任务 // 提交任务 private SparkContext sc; private SQLContext sqlc; sc.set…
hadoop+spark 整合
zookeeper安装 zookeeper3.4.6安装 spark高可用安装完成 spark高可用安装 hadoop安装 hadoop安装 整合hadoop+spark 配置spark+hadoop HADOOP_CO…
Spark连接JDBC数据源
在实际的项目环境中,成熟的技术体系对关系型数据库的依赖远远超过hdfs,而且对大数据运算的结果,实践中也倾向于保存到数据库中,以便进行多种方式的可视化。所以本次实践主要完成spark从mysql中读取和写入数据。一般这个…
spark之Failed to create local dir那点事
近日莫名遭遇异常一枚,如下: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 271.0 failed…
Spark技术实战之基础篇
Spark技术实战之基础篇 -Scala语言从入门到精通为什么要学习Scala?源于Spark的流行,Spark是当前最流行的开源大数据内存计算框架,采用Scala语言实现,各大公司都在使用Spark:IBM宣布承诺大力…
大数据面试问题
spark工作原理 spark运行原理 Spark Streaming Storm的ack是干嘛的 kalfka干嘛的 job提交到yarn上的工作流程 10x+5y+z = n,x+y+z的最小值 ArryList、L…
spark之map与flatmap的区别
spark的dataframe操作,其中map和flatmap挺绕头的,其实要理解也很简单,只需要记住一下即可: map是对dataframe的每一个row的操作。 flatmap是先map,再扁平化。 具体示例我们可以…
HBase/Spark Guava依赖冲突解决方案
前言 版本 guava 版本 Spark 2.2.0 12.0.1 HBase 1.0.0-cdh5.6.0 20.0 由于guava的版本在16.0以后,不向后兼容,所以Spark程序中集成HBase是会报找不到依赖的…