你是一名数据科学家/算法工程师,在 Python/R/Spark/MATLAB(业界有几个用?)等环境下用最爱的机器学习框架训练好了模型,准确度不错。想就这样交差?公司当初招聘你难道就为了看一个 98% 的数字,或者期待…
分类:scikit-learn
scikit-learn系列之如何做数据准备
如何准备数据 几乎所有的机器学习算法都需要对数据进行准备,不同的算法根据其假设,可能要求不同的数据转化。原文作者的建议是:使用一个数据驱动的方法,组合多种数据准备方法和多种算法,比较表现优劣,建立起数据转化和算法的对应关…
用scikit-learn来预测北京的pm2.5
机器学习最好入门的是什么?根基是什么? 我觉得是分类。 我当然不会讲什么具体的分类算法的实现,我们直接用Scikit-learn。关于scikit-learn,唯一需要知道的是,它除了深度学习,传统机器学习它都很好用,也…
机器学习笔记(3)-sklearn支持向量机SVM
文章用于总结对sklearn支持向量机模块的使用,系统回顾作者近期的相关学习,部分内容来源网站(侵权联系必删)。 第一部分 SVM用途及优缺点 1. 主要用途: classification(分类)、regression…
【scikit-learn】GridSearchCV 在windows中并行计算出错的问题
先说下环境:Win10+spyder+py3.6 控制CPU个数的参数n_job当设置为1时程序能够正常运行。 但是当n_job>1或者n_job=-1时,程序会报错,报错内容如下: 错误I 通过大量查阅资料,以及…
Scikit-learn决策树应用篇
写在之前 之前的博文较为详细介绍了scikit的参数和说明:http://www.jianshu.com/p/59b510bafb4d 本文是在此基础上做的一个应用,涉及的数据和程序可以在下面的连接中下载:http://…
scikit-learn系列之如何做算法集成
如何做算法集成 算法集成可以提升模型的准确率。在本文中,你会学习如何使用scikit-learn建立一些最有效的算法集成方法。我会带你一步步的完成 Bagging,Boosting和Voting,展示给你如何深入压榨模型…
scikit-learn--Ensemble methods(集成方法)
集成方法的目的是通过结合很多基学习器来增强泛化和鲁棒性。 两种集成方法: averaging methods,主要原则是独立地建立很多基学习器,然后取预测结果的平均值;联合估计通常比任一单一估计有表现的更好,因为方差减小…
matplotlib中如何保存图片到本地中
当你利用python中的matplotlib做出了想要的图之后,你肯定希望自动将图片保存到想要的文件夹中,从而减少再手动保存的麻烦。matplotlib中也提供了这样的模块,为matplotlib.pyplot.save…
基于scikit-learn机器学习库的分类预测
摘要: 在Python中如何使用scikit-learn模型对分类、回归进行预测?本文简述了其实现原理和代码实现。 一旦你在scikit-learn中选择好机器学习模型,就可以用它来预测新的数据实例。初学者经常…
windows下安装python拓展包
linux和windows下安装python拓展包-pycharm、numpy、scipy、matplotlib、scikit、gensim、PIL、OpenCV、django、pythonqt… http:…
使用scikit-learn计算文本TF-IDF值
一、TF-IDF介绍 (一)术语介绍 TF-IDF(Term Frequency-InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法,根据字词的在文本中出现…