20个Spark实战项目列表

2023年9月11日 247次阅读来源: 实验楼

前言：

Spark 概念

Spark是UC Berkeley AMP lab开发的一个集群计算的框架，类似于Hadoop，但有很多的区别（详细见推荐阅读材料）。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代的MapReduce算法场景中，可以获得更好的性能提升。例如一次排序测试中，对100TB数据进行排序，Spark比Hadoop快三倍，并且只需要十分之一的机器。Spark集群目前最大的可以达到8000节点，处理的数据达到PB级别，在互联网企业中应用非常广泛（详细见推荐阅读材料）。

20个spark实战项目列表：

1、【使用 SparkSQL 分析纽约市犯罪数据】
2、【Kmeans聚类算法评估足球比赛】
3、【使用决策树算法预测森林植被】
4、【Spark 机器学习之电影推荐系统】
5、【使用 Spark 进行流量日志分析】
6、【Spark 实现黑名单实时过滤】
7、【Spark2.x 快速入门教程】
8、【Spark的模式挖掘—FPGrowth算法】
9、【流式实时日志分析系统——《Spark 最佳实践》】
10、【Spark流式计算电商商品关注度】
11、【大数据带你挖掘打车的秘籍】
12、【使用 Spark 和 D3.js 分析航班大数据】
13、【Spark 基础之 SparkR 快速上手】
14、【Spark 基础之 Streaming 快速上手】
15、【Spark 基础之使用机器学习库 MLlib】
16、【Spark 基础之 SQL 快速上手】
17、【Spark 基础之 DataFrame 高阶应用技巧】
18、【Spark 基础之 DataFrame 基本概念学习】
19、【Spark基础之GraphX图计算框架学习】
20、【Spark 大数据动手实验】

最后：

更多实战教程，点击这里查看~
12条学习路径，照着学习不迷茫~

    原文作者：实验楼
    原文地址: https://www.jianshu.com/p/2d6aafa8ac4a
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。