前言:
Spark 概念
Spark是UC Berkeley AMP lab开发的一个集群计算的框架,类似于Hadoop,但有很多的区别(详细见推荐阅读材料)。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次都写入HDFS,更适用于需要迭代的MapReduce算法场景中,可以获得更好的性能提升。例如一次排序测试中,对100TB数据进行排序,Spark比Hadoop快三倍,并且只需要十分之一的机器。Spark集群目前最大的可以达到8000节点,处理的数据达到PB级别,在互联网企业中应用非常广泛(详细见推荐阅读材料)。
推荐阅读
推荐阅读的理论文章:
写的很好的一篇大数据技术生态圈介绍文章,层次条理分明,内容详尽。推荐必读。
这个页面列举了部分使用Spark的公司和组织,有使用场景的介绍,可做简单了解。
最早的Spark论文之一,比起其他论文篇幅要短些,内容对理解Spark原理和内核很有价值,英文可以的话推荐阅读。
这篇介绍是我看到过最详尽的,讲到很多Spark基本原理和对比Hadoop的优势,推荐必读。
20个spark实战项目列表:
1、【使用 SparkSQL 分析纽约市犯罪数据】
2、【Kmeans聚类算法评估足球比赛】
3、【使用决策树算法预测森林植被】
4、【Spark 机器学习之电影推荐系统】
5、【使用 Spark 进行流量日志分析】
6、【Spark 实现黑名单实时过滤 】
7、【Spark2.x 快速入门教程】
8、【Spark的模式挖掘—FPGrowth算法】
9、【流式实时日志分析系统——《Spark 最佳实践》】
10、【Spark流式计算电商商品关注度】
11、【大数据带你挖掘打车的秘籍】
12、【使用 Spark 和 D3.js 分析航班大数据】
13、【Spark 基础之 SparkR 快速上手】
14、【Spark 基础之 Streaming 快速上手】
15、【Spark 基础之使用机器学习库 MLlib】
16、【Spark 基础之 SQL 快速上手】
17、【Spark 基础之 DataFrame 高阶应用技巧】
18、【Spark 基础之 DataFrame 基本概念学习】
19、【Spark基础之GraphX图计算框架学习】
20、【Spark 大数据动手实验】