这篇博客主要总结一下数据挖掘、数据分析领域相关书籍,主要参考了知乎上的问题在数据分析、挖掘方面,有哪些好书值得推荐。
首先推荐周志华写的机器学习。我最近也在读这本书,优点是适合入门,知识大而全,缺点是每个知识点介绍的不深入(这也没办法,要是面面俱到,一本书根本写不完)。
入门读物
- 深入浅出数据分析。这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。
- 啤酒与尿布。通过案例来说事情,而且是最经典的例子。难易程度:非常易。
- 数据之美。一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。
- 数学之美。吴军博士写的,作为科普读物还不错。
数据分析
- SciPy and NumPy。numpy和scipy很好很强大
- Python for Data Analysis。
- Bad Data Handbook。
数据挖掘入门书籍
- 集体智慧编程。经典书籍,入门必读。
- 机器学习实战。理论很好,代码质量一般般。优点是让你看看如何实现这些算法,缺点是书中的代码几乎用不上。
- 数据挖掘导论。研究生期间的教材,通俗易懂,习题很赞。
- Machine Learning for Hackers。算法用R实现。
中阶
- Introduction to Semi-Supervised Learning
- Learning to Rank for Information Retrieval
- Learning to Rank for Information Retrieval and Natural Language Processing
- 推荐系统实践。推荐系统入门首选
- Natural Language Processing with Python。NLP 经典,其实主要是讲NLTK包
高阶
- The Elements of Statistical Learning。很难,啃完不容易。
- 统计学习方法。李航老师的扛鼎之作,强烈推荐。
- Machine Learning。作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作,写完之后,就去Google了,产学研结合,没有比这个更好的了。
- Pattern Recognition And Machine Learning。PRML地位不解释。
- Bayesian Reasoning and Machine Learning。Bayesian学派的书,里面的内容非常多,有一张图将机器学习中设计算法的关系总结了一下,很棒。
- Probabilistic Graphical Models。非常非常难。
- Convex Optimization (豆瓣) 凸优化中最好的教材,没有之一了。
- Learning from data。林轩田老师作品。
写在后面,看了肖博士的答案,确实比其他答案好不少,专业且全面,而且有针对性。除了书籍,后续我会补充一些公开课资源。