one-hot编码是特征处理中的必备,在项目中我们是这么应用的, # sklearn用法 from sklearn import preprocessing enc = OneHotEncoder(sparse = Fa…
标签:数据挖掘
Kaggle入门级赛题:泰坦尼克号生还者预测——数据挖掘篇
本次分享的项目来自 Kaggle 的经典赛题:泰坦尼克号生还者预测。分为数据分析和数据挖掘两部分介绍。上一篇为数据分析篇,本篇为数据挖掘篇。 数据挖掘 本篇的内容有以下几部分: 对一些异常和缺失数据进行清洗。 进行特征的…
数据挖掘实战项目——北京二手房房价分析
本次实战项目的主要目的是分析北京二手房房价,项目源自博文:入门Python数据分析最好的实战项目(一)和入门Python数据分析最好的实战项目(二)。本篇文章仅记录博主在学习过程中的思路。 数据分析 首先我们要对数据进行…
入门Python数据分析最好的实战项目(二)
作者:xiaoyu 微信公众号:Python数据科学 知乎:python数据分析师 上一篇和大家分享了一个入门数据分析的一个小项目 北京二手房房价分析,链接如下: 入门Python数据分析最好的实战项目(一) 文章在sf…
决策树ID3算法python实现
在周志华的西瓜书和李航的统计机器学习中对决策树ID3算法都有很详细的解释,如何实现呢?核心点有如下几个步骤,(参考自机器学习实战) step1:计算香农熵 from math import log import oper…
Python数据挖掘与机器学习,快速掌握聚类算法和关联分析
摘要:前文数据挖掘与机器学习技术入门实战与大家分享了分类算法,在本文中将为大家介绍聚类算法和关联分析问题。分类算法与聚类到底有何区别?聚类方法应在怎样的场景下使用?如何使用关联分析算法解决个性化推荐问题?本文就为大家揭晓…
机器学习与数据挖掘: 基础概念
如何成为机器学习工程师https://keras-cn.readthedocs….http://www.tensorfly.cn/tfdoc… 机器学习 vs 数据分析 数据特点 数据分析 机…
书单分享
了解一个新的领域,其中一个方法就是大量的阅读,进而产生一个基本的认识。 之前研究过推荐系统,机器学习,一路走来也积累了一些书单,丢失了一些,如今还剩这些。在此分享给大家,里面有不少有关机器学习和数据挖掘,还有 Pytho…
新书《全栈数据之门》预告
终于,可以给各位关心《全栈数据之门》的亲人、朋友一个交待了! 经过出版社三个多月的编辑与排版,目前已经编辑完成了最后的版本。就等过完年,吃好、喝好、玩好后回来,就可以开始印刷了。 预计在2017年3月份可以与各位读者见面…
梯度下降法变种的汇总
引言 在各类优化方法中,梯度下降法(Gradient Descent)是最为常见的策略。这里将对一些常见的梯度下降法的变种做一个梳理。方便大家更好地理解梯度下降法的应用域。 如何理解梯度下降法 假想一个状态,你在徒步中准…
Python遗传算法框架DEAP-Creating Types
DEAP是一个python遗传算法框架,这里是它的简介。DEAP documentation今天整理一下DEAP的概览,大体了解一下它的流程。初学,不严谨,仅作为自己的备忘学习笔记。 This tutorial show…
python遗传算法(GA)DEAP-Overview学习摘要
DEAP-Overview DEAP是一个python遗传算法框架,这里是它的简介。DEAP documentation今天整理一下DEAP的概览,大体了解一下它的流程。初学,不严谨,仅作为自己的备忘学习笔记。 一. T…