Spark 向Spark1.6开炮:问题总结与踩坑: http://www.tuicool.com/articles/2U36Zb Spark Summit 2017 2月份: https://spark-summit.…
分类:Spark
(二十九)IDEA开发Spark报错: Failed to locate the winutils binary in the hadoop binary path
18/09/18 10:23:10 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using built…
Spark实例-自定义聚合函数
Spark自定义聚合函数时,需要实现UserDefinedAggregateFunction中8个方法: inputSchema:输入的数据类型 bufferSchema:中间聚合处理时,需要处理的数据类型 dataTy…
在spark dataFrame 中使用 pandas dataframe
背景 项 pandas spark 工作方式 单机,无法处理大量数据 分布式,能处理大量数据 存储方式 单机缓存 可以调用 persist/cache 分布式缓存 是否可变 是 否 index索引 自动创建 无索引 行结…
Spark Streaming + Spark SQL 实现配置化ETL流程
Spark Streaming 非常适合ETL。但是其开发模块化程度不高,所以这里提供了一套方案,该方案提供了新的API用于开发Spark Streaming程序,同时也实现了模块化,配置化,并且支持SQL做数据处理。 …
spark graphx pregel
pregel是谷歌提出的图计算的一个算法的概念。用于迭代的计算每个顶点的属性,直到满足某个条件(达到稳定状态)。 pregel主要的用途是图遍历(BFS),单源最短路径(Single Source Shortest pa…
【Spark Mllib】TF-IDF&Word2Vec——文本相似度
1 从数据中抽取合适的特征 1.1 TF-IDF短语加权表示 TF-IDF公式的含义是:在一个文档中出现次数很多的词相比出现次数少的词应该在词向量表示中得到更高的权值。而IDF归一化起到了减弱在所有文档中总是出现的词的作…
一次Spark上包依赖冲突的解决
本地环境IDEA, 但把Jar包上传到Spark集群的时候, Job会失败. 错误信息 2017-03-29 18:12:48,190 ERROR [Driver] yarn.ApplicationMaster (Log…
绝对干货:Spark核心技术系列学习课程和实践指导
云栖社区围绕大数据技术——Spark整理了一份详尽的学习、实践课程,整个课程分为三大部分: 一、基础打磨:《Scala入门到精通》《Linux&Akka基础》的系列学习课程; 二、深入理解:本部分主要包含《源码走…
关于spark-submit之后,报错NoClassDefFoundError
NoClassDefFoundError:org.apache.hadoop.hdfs.server.namenode.NameNode 这个问题,困扰了我五天时间,之前使用Eclispe打包之后,在云服务器上面运行。 …
Spark端口总结
Spark的端口总结 Master节点的web端口是8080,work节点的web端口是8081 spark master web ui 默认端口为8080,当系统有其它程序也在使用该接口(比如:Tomcat)时,启动m…
2018-11-17 Spark介绍系列文章
http://litaotao.github.io/introduction-to-spark 本系列文章链接 『 Spark 』1. spark 简介 『 Spark 』2. spark 基本概念解析 『 Spark …