Spark学习(Python版本):学习笔记目录

这个系列是跟着林子雨老师的子雨大数据之Spark入门教程(Python版)所做的学习笔记。

软件源以及版本:

  • spark-2.1.0-bin-without-hadoop.tgz
  • spark-2.1.0-bin-h27hive.tgz(来自林子雨老师课程主页分享)
  • hadoop-2.7.6.tar.gz
  • hbase-1.1.5-bin.tar.gz
  • apache-hive-1.2.2-bin.tar.gz
  • MySQL: 5.7.23-0ubuntu0.16.04.1 (Ubuntu)
  • mysql-connector-java-5.1.40.tar.gz
  • Kafka_2.11-0.10.1.0.tgz
  • apache-flume-1.7.0-bin.tar.gz

学习笔记目录:

1.Spark学习(Python版本):Spark安装
2.Spark学习(Python版本):第一个spark应用程序

Spark RDD

3.Spark学习(Python版本):Spark RDD编程基础
4.Spark学习(Python版本):键值对RDD
5.Spark学习(Python版本):共享变量
6.Spark学习(Python版本):读写HBase数据库

Spark SQL

7.Spark学习(Python版本):Spark SQL中的DataFrame的操作
8.Spark学习(Python版本):连接Hive读写数据(DataFrame)

Spark Streaming

9.Spark学习(Python版本):SparkStreaming基本操作
10.Spark学习(Python版本):使用Kafka数据源
11.Spark学习(Python版本):使用Flume数据源
12.Spark学习(Python版本):DStream转换操作
13.Spark学习(Python版本):DStream输出操作

Spark ML

14.Spark学习(Python版本):构建一个机器学习工作流
15.Spark学习(Python版本):特征处理相关的算法(TFDIF, Word2Vec)

未完待续。。。

附:相关内容

云计算–hdfs dfs 命令
HBase安装
Hive安装
MySQL安装

    原文作者:马淑
    原文地址: https://www.jianshu.com/p/d5b13c32560b
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞