20个Spark实战项目列表

前言:

Spark 概念

Spark是UC Berkeley AMP lab开发的一个集群计算的框架,类似于Hadoop,但有很多的区别(详细见推荐阅读材料)。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次都写入HDFS,更适用于需要迭代的MapReduce算法场景中,可以获得更好的性能提升。例如一次排序测试中,对100TB数据进行排序,Spark比Hadoop快三倍,并且只需要十分之一的机器。Spark集群目前最大的可以达到8000节点,处理的数据达到PB级别,在互联网企业中应用非常广泛(详细见推荐阅读材料)。

推荐阅读

推荐阅读的理论文章:

大数据技术生态介绍

写的很好的一篇大数据技术生态圈介绍文章,层次条理分明,内容详尽。推荐必读。

谁在使用Spark?

这个页面列举了部分使用Spark的公司和组织,有使用场景的介绍,可做简单了解。

Spark RDD原理详解论文(英文)

最早的Spark论文之一,比起其他论文篇幅要短些,内容对理解Spark原理和内核很有价值,英文可以的话推荐阅读。

Spark与Hadoop对比

这篇介绍是我看到过最详尽的,讲到很多Spark基本原理和对比Hadoop的优势,推荐必读。

20个spark实战项目列表:

1、【使用 SparkSQL 分析纽约市犯罪数据】
2、【Kmeans聚类算法评估足球比赛】
3、【使用决策树算法预测森林植被】
4、【Spark 机器学习之电影推荐系统】
5、【使用 Spark 进行流量日志分析】
6、【Spark 实现黑名单实时过滤 】
7、【Spark2.x 快速入门教程】
8、【Spark的模式挖掘—FPGrowth算法】
9、【流式实时日志分析系统——《Spark 最佳实践》】
10、【Spark流式计算电商商品关注度】
11、【大数据带你挖掘打车的秘籍】
12、【使用 Spark 和 D3.js 分析航班大数据】
13、【Spark 基础之 SparkR 快速上手】
14、【Spark 基础之 Streaming 快速上手】
15、【Spark 基础之使用机器学习库 MLlib】
16、【Spark 基础之 SQL 快速上手】
17、【Spark 基础之 DataFrame 高阶应用技巧】
18、【Spark 基础之 DataFrame 基本概念学习】
19、【Spark基础之GraphX图计算框架学习】
20、【Spark 大数据动手实验】

最后:

    原文作者:实验楼
    原文地址: https://www.jianshu.com/p/2d6aafa8ac4a
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞