Spark入门网络课程推荐

现在大数据处理领域最火爆的非Spark莫属,今年夏天Berkeley大学开放了两门Spark入门网络课程。跟着学习了一下,感觉非常适合入门,课程同时会涉及到数据分析方法、ML的一些基础算法。

两门课程如下:
第一门 CS100 《BerkeleyX: CS100.1x Introduction to Big Data with Apache Spark
第二门CS190 《BerkeleyX: CS190.1x Scalable Machine Learning

从这两门课程的参与人数上也可以看出来spark到底有多火热:

CS100

The over 70,000 students from over 170 countries who enrolled in this course:10,700 students finished lab 1, 8,700 lab 2, 7,400 lab 3, and 6,800 lab 4.

CS190

Nearly 50,000 students from 163 countries are enrolled in this course

个人比较推荐的2个理由:

  1. 课程提供一套环境,在自己PC上安装VBox,vagrant后,本机上就有一个Spark环境,方便学习;
  2. 课程的作业设计非常好,循序渐进,有难度。总共5周的教学,有4 个lab要做。 每个 lab 会由浅至深介绍spark的各种用法,并且以实际应用为主。整个做下来对 Spark RDD操作,Python 数据处理,mllib 都会有所了解。

课程目录:

CS100:

lab1 学习 Spark模型、transformation、action、 word count 程序;
lab2 应用 Spark 进行日志分析,数据统计,画图;
lab3 实现文本分析,介绍TF-IDF算法,并进行算法评估;
lab4 介绍机器学习 用协同过滤算法实现电影推荐

CS190:

lab1 python,Numpy 介绍
lab2 同CS100 lab1,Spark RDD操作,wordcount 实现
lab3 线性回归 算法预测 歌曲发型年份
lab4 逻辑回归 进行CTR预测
lab5 PCA算法

    原文作者:简简单单书写
    原文地址: https://www.jianshu.com/p/d907d726a661
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞