【学途无忧网】Spark2.x+Python大数据机器学习视频课程

2023年11月14日 255次阅读来源: 学习达人_f7be

Spark2.x+Python大数据机器学习视频课程

课程学习地址：http://www.xuetuwuyou.com/course/303

课程出自学途无忧网：http://www.xuetuwuyou.com

讲师：轩宇老师

本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型，帮助读者开发并部署高效可拓展的实时Spark解决方案。

第一章、搭建Spark 2.x+Python开发环境及基本开发入门

1、快速环境搭建：导入Windows7虚拟机至VMWARE及启动系统和远程桌面连接

2、快速环境搭建：Windows系统如何安装pyspark模块到Anaconda及启动PyCharm了解Spark MLlib机器学习库源码及走读

3、快速环境搭建：使用PyCharm开发Spark程序（读取文本数据封装RDD）

4、PySpark SQL快速开发：结构化海量数据处理框架SparkSQL介绍、DataFrame概述及分析数据两种方式

5、PySpark SQL快速开发：使用SparkSession读取文本数据分析及CSV格式数据分析（封装DataFrame分布式数据集）

6、PySpark SQL快速开发：基于Jupyter Notebook读取航空航天数据、使用DSL分析

7、PySpark SQL快速开发：使用DSL分析航天航空数据及如何将DataFrame转换为Pandas中dataframe

第二章、Python Spark MLlib 创建推荐引擎（ALS算法篇）

8、推荐系统几大分类（不同数据、不同算法）概述、以亚马逊和JD为例查看推荐（检索物品后推荐）及推荐系统预测（评分和行为）

9、协同过滤推荐算法CF核心思想、算法数据（用户对物品的评价）及矩阵分解两种方式（SVD和ALS算法）

10、CF的两种推荐方式（基于用户推荐和基于物品推荐）、计算用户或物品相似度常见四种方式及Spark MLlib中ALS算法核心（数据封装、算法超参数）

11、推荐数据集：电影评分数据、通过源码剖析Spark MLlib中协同过滤算法实现类（Rating、ALS和MatrixFactorizationModel）

12、使用Jupyter Notebook开发电影推荐：读取MovieLens评分数据、组合特征、训练模型、预测评分和为用户或电影进行Top10推荐

第三章、Python Spark MLlib 创建推荐引擎（深入实践篇）

13、回顾综述Spark MLlib中支持推荐系统中不同算法（内容推荐Word2Vector、关联规则FP-Growth和协同过滤ALS）

14、针对电影推荐开发优化：将数据集划分为训练和测试、计算模型评估指标MSE和RMSE值

15、针对电影推荐开发优化：定义函数封装模型评估（依据传递模型和测试数据集）

16、针对电影推荐开发优化：使用多层嵌套FOR循环设置不同超参数值训练和评估模型，获取最佳模型

17、针对电影推荐开发优化：保存加载模型、机器学习简易开发流程和使用PyCharm开发封装模型训练与保存

18、针对电影推荐开发优化：依据输入用户或物品进行相关推荐（加载离线训练完成的模型）

第四章、Python Spark MLlib 构建分类模型

19、综述Spark MLlib中实现常见分类算法库（二分类和多分类）及查看实现源码

20、监督学习算法数据格式标签向量LabelPoint及Kaggle竞赛StumbleUpon数据集说明（预测网址是否长青或短暂）

21、构建分类系统之数据调研、数据过滤转换和类别特征提取方式1-of-K详解

22、构建分类系统之分别定义函数提取类别label和转换类别数据提取特征features

23、构建分类系统之封装数据、划分数据集、使用决策树分类及二分类评估指标PR和ROC

24、构建分类系统之使用集成学习算法随机森林RF训练模型和评估性能

25、构建分类系统之使用梯度提升算法GBT训练模型和评估性能

26、构建分类系统之分别使用朴素贝叶斯、支持向量机SVM和逻辑回归算法训练模型与预测

第五章、Python Spark MLlib 构建回归分析

27、Spark MLlib中回归算法实现库（LR、DT等）、过拟合（L1和L2正则化）和阅读算法库源码

28、BikeSharing数据集调研、读取数据并编写函数提取特征和标签

29、构建回归模型之划分数据集、使用决策树回归算法训练模型及定义函数评估模型

30、构建回归模型之使用随机森林RF和梯度提升GBT回归算法训练模型及评估模型

31、构建回归模型之使用LinearRegressionWithSGD训练模型及引出要转换类别特征数据问题

第六章、Spark ML Pipeline 机器学习流程回归分析

32、回顾复习Spark MLlib中算法（分类、回归和推荐）及基于DataFrame ML几个核心概念剖析

33、_查看Spark ML机器学习库源码及SparkSession读取电影评分数据封装DataFrame

34、基于DataFrame 协同过滤算法ALS进行电影推荐模型训练和相关预测

35、基于DataFrame 决策树回归算法DecisionTreeRegressor训练模型（VectorAssembler特征组合）和评估（RegressionEvaluator）

36、使用VectorIndexer类别特征转换及使用TrainValidationSplit进行超参数调整获取最佳模型

37、使用交叉验证CrossValidator方式训练评估模型找到最佳模型

38、Pipeline管道使用说明、结合共享单车出租预测进行构建Pipeline Model模型和预测

    原文作者：学习达人_f7be
    原文地址: https://www.jianshu.com/p/fff8d5255f11
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。