分类：Spark

Spark相关学习链接（持续更新）

Spark 向Spark1.6开炮：问题总结与踩坑： http://www.tuicool.com/articles/2U36Zb Spark Summit 2017 2月份: https://spark-summit.…

18/09/18 10:23:10 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using built…

Spark自定义聚合函数时，需要实现UserDefinedAggregateFunction中8个方法： inputSchema：输入的数据类型 bufferSchema：中间聚合处理时，需要处理的数据类型 dataTy…

背景项 pandas spark 工作方式单机，无法处理大量数据分布式，能处理大量数据存储方式单机缓存可以调用 persist/cache 分布式缓存是否可变是否 index索引自动创建无索引行结…

Spark Streaming 非常适合ETL。但是其开发模块化程度不高，所以这里提供了一套方案，该方案提供了新的API用于开发Spark Streaming程序，同时也实现了模块化，配置化，并且支持SQL做数据处理。 …

pregel是谷歌提出的图计算的一个算法的概念。用于迭代的计算每个顶点的属性，直到满足某个条件（达到稳定状态）。 pregel主要的用途是图遍历（BFS），单源最短路径（Single Source Shortest pa…

1 从数据中抽取合适的特征 1.1 TF-IDF短语加权表示 TF-IDF公式的含义是:在一个文档中出现次数很多的词相比出现次数少的词应该在词向量表示中得到更高的权值。而IDF归一化起到了减弱在所有文档中总是出现的词的作…

本地环境IDEA, 但把Jar包上传到Spark集群的时候, Job会失败. 错误信息 2017-03-29 18:12:48,190 ERROR [Driver] yarn.ApplicationMaster (Log…

云栖社区围绕大数据技术——Spark整理了一份详尽的学习、实践课程，整个课程分为三大部分：一、基础打磨：《Scala入门到精通》《Linux&Akka基础》的系列学习课程；二、深入理解：本部分主要包含《源码走…

NoClassDefFoundError：org.apache.hadoop.hdfs.server.namenode.NameNode 这个问题，困扰了我五天时间，之前使用Eclispe打包之后，在云服务器上面运行。 …

Spark的端口总结 Master节点的web端口是8080,work节点的web端口是8081 spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口（比如:Tomcat）时，启动m…

http://litaotao.github.io/introduction-to-spark 本系列文章链接『 Spark 』1. spark 简介『 Spark 』2. spark 基本概念解析『 Spark …