目标是要成为一个掌握从数据清洗、建模、到模型运行调试输出结果、指导生产等一个完整数据挖掘分析流程的人才。
其实自己已经有一点基础了,对经典的机器学习算法也有过初步的学习,但是没有深刻理解,到现在只留下些模糊的概念,原理忘记了,运用也忘记了,只依稀记得learn、predict 方法的调用。但是经过这初步的学习我也知道了算法模型的使用很简单但深层含义很难,所以现在重新学的重点应该放在全面理解上,不仅是数学推导还有性能优化参数调试,掌握了原理才能再应用上如鱼得水。多年的学习我意识到问题是最好的老师,或许从一些抽象的概念入手,经过一些实际的操作后,再进入深入的学习。
SQL 练习、语句优化、hive 学习、hive 语句优化,SQL及hive及脚本里面的正则表达式
两周时间,交叉进行,12月13日-12月30日
Sql在线练习题:百度云
Hive学习之路:https://www.cnblogs.com/qingyunzong/category/1191578.html
Hadoop 学习:mR原理以及hive优化
三周时间1月2日-1月20日
云盘里面的 大数据学习相关(201806)-Hive 源码解析与开发实战
统计学+机器学习基本算法
两个月的时间(可能要根据难度来适当延长时间)1月21日-3月21日
以算法为主,然后重点掌握推导过程,并对涉及到的数学知识进行深入了解,学习完算法后再倒回来将没有学习完的数学知识重新学习。李航的<统计学习方法>、周志华的<机器学习>、 Horn的《矩阵分析》、 门登霍尔的《统计学》(比大学更多统计学方面的知识)、《凸优化》、《数据挖掘导论》、《最优化导论》
Python 数据分析包再学习
numpy、pandas、matplotlib、seaborn、excel学习两周时间根据自己的视频来重新学习一遍,还有pandas 的官方学习资料(挑战一下)http://pandas.pydata.org/pandas-docs/stable/10min.html
Python web+爬虫
一个月时间,可以适当提前
自己的学习视频
tableau 、SAS、SPSS等工具的使用
学习两周
找相应的视频
项目实战
一个月
找kaggle 项目来学习
学习是痛苦和漫长的,理论知识学习很枯燥,所以希望能够以项目为主提升兴趣,获取到问题然后再去学习,如学习算法时可以不先学统计学,而是再原理推导时用到再去学。我觉得尽量不要学完所有东西再去应用,因为这样不仅没有重点还很容易忘记。学习找不到方法时可以看看励志书,如高效能习惯,为培养数据分析必要的口才能力,可以自己试着把学习成果以讲课的形式录制视频讲出来。