《深度学习之美》读书笔记章四

《《深度学习之美》读书笔记章四》

这一篇文章主要介绍python的机器学习类库。python 作为一门语言,这里只介绍在机器学习中python常用的库,其他学习可以到菜鸟网来学习,个人认为这里学习效果还不错。

第四章 人生苦短对酒歌,我用python乐趣多

一,python中机器学习常用的库

1. 数值计算Numpy

NumPy的取自“Numeric(数值)”和“python”的简写。它是处理计算最为基础的类库。NumPy除了提供一些数学运算函数之外,还提供了向量和矩阵的运算。对于两个矩阵的加法,在诸如c/c++或Java等语言里,需要用多层for循环来实现,而在NumPy中仅用一条语句。

对于机器学习来说,不论是参数的批量计算还是数据特征表示,都离不开向量和矩阵的便捷运算。并且NumPy还采用非常独到的数据结构设计,使之在存储和处理大型矩阵方面,比python自身的嵌套列表结构要高效的多。

NumPy被定位为数学基础库,属于比较底层的python库。

2. 科学计算SciPy

SciPy的发音是“Sigh Pie”,它是“Science”和Python的组合。它是面向科学计算的Python库。SciPy构建于NumPy之上,其功能更加的强大,在常微分方程求解,线性代数,信号处理,图像处理及稀疏矩阵操作等方面,均有出色的支持。SciPy库需要NumPy库的支持,故他的安装要先于SciPy库。

3. 数据清洗Pandas

Pandas 的全称是“Python Data Analysis Library”,这是一款基于Python的数据分析库,它同样基于NumPy构建而成。

Pandas库提供了操作大型数据集所需的高效工具,支持带有坐标轴的数据结构,这能防止由于数据没有对齐,处理不同来源,采用不同索引的数据而产生的常见错误。在数据预处理或数据清洗上,pandas提供了处理缺失值,转换,合并及其他类SQL的功能,这些功能大大减轻了一线从事机器学习的研发人员的负担。在某种程度上,Pandas是实施数据清洗/整理(Data Wrangling)最好的工具之一。

4.图形绘制Matplotlib与Seaborn

python提供了绘图功能强大的类库Matplotlib,它可以很方便的绘制散点图,折线图,条形图,直方图,饼状图等专业图形。此外,它还提供了一定的互动功能,如图形的缩放和平移等。其输出的常见文件格式有PDF,SVG,PNG,BMP和GIF等。
Matplotlib也是绘制图形的基础库,Seaborn是基于它的高级库,它对Matplotlib做了二次封装,可以绘制更加精致图。如下图:

《《深度学习之美》读书笔记章四》

5. scikit-learn

scikit-learn构建于NumPy,SciPy和Matplotlib之上,提供了一系列经典机器学习算法,如聚类,分类和回归等,并提供统一的接口供用户调用。目前它已经成为相对成熟的机器学习开源项目。

除了上面提到的几个常用的类库和工具之外,python还提供了其他一些实用库。比如,用于网站数据抓取的Scrappy,用于网络挖掘的Pattern,用于自然语言处理的MLTK和使用深度学习的Tensorflow等。

    原文作者:wenju_song
    原文地址: https://www.jianshu.com/p/0bdbe84c0558
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞