这个系列是跟着林子雨老师的子雨大数据之Spark入门教程(Python版)所做的学习笔记。
软件源以及版本:
- spark-2.1.0-bin-without-hadoop.tgz
- spark-2.1.0-bin-h27hive.tgz(来自林子雨老师课程主页分享)
- hadoop-2.7.6.tar.gz
- hbase-1.1.5-bin.tar.gz
- apache-hive-1.2.2-bin.tar.gz
- MySQL: 5.7.23-0ubuntu0.16.04.1 (Ubuntu)
- mysql-connector-java-5.1.40.tar.gz
- Kafka_2.11-0.10.1.0.tgz
- apache-flume-1.7.0-bin.tar.gz
学习笔记目录:
1.Spark学习(Python版本):Spark安装
2.Spark学习(Python版本):第一个spark应用程序
Spark RDD
3.Spark学习(Python版本):Spark RDD编程基础
4.Spark学习(Python版本):键值对RDD
5.Spark学习(Python版本):共享变量
6.Spark学习(Python版本):读写HBase数据库
Spark SQL
7.Spark学习(Python版本):Spark SQL中的DataFrame的操作
8.Spark学习(Python版本):连接Hive读写数据(DataFrame)
Spark Streaming
9.Spark学习(Python版本):SparkStreaming基本操作
10.Spark学习(Python版本):使用Kafka数据源
11.Spark学习(Python版本):使用Flume数据源
12.Spark学习(Python版本):DStream转换操作
13.Spark学习(Python版本):DStream输出操作
Spark ML
14.Spark学习(Python版本):构建一个机器学习工作流
15.Spark学习(Python版本):特征处理相关的算法(TFDIF, Word2Vec)
未完待续。。。