1. 项目介绍 来自Kaggle社区上的数据集,TMDB 5000 Movie Dataset。 2. 提出问题 a. 电影的类型会随着时间变化吗?若变化,是如何变化的? b. 对于不同的电影类型,支出与利润的关系是如何…
分类:数据挖掘
【火炉炼AI】机器学习008-简单线性分类器解决二分类问题
【火炉炼AI】机器学习008-简单线性分类器解决二分类问题 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) …
二. 挖掘和分析 —《无问西东》的豆瓣评论数据分析
基于上一篇由爬虫在豆瓣上得到的数据,我将进行简单的数据分析。 考虑到后期数据处理都是用xlsx,所以这对前面的存储数据的方式做一个修改,如下: def parse(self, response): self.log('s…
爬取简书和数据分析
最近使用爬虫爬了一下简书,半天的时间爬取了简书20w用户数据和40w的follow关系。这些存在mysql里面的闲着也是闲着,想试着做一些有意思的数据统计和社交关系分析。 最受欢迎的作者 我统计了简书上面粉丝数最多和被喜…
Kaggle 神器 xgboost
在 Kaggle 的很多比赛中,我们可以看到很多 winner 喜欢用 xgboost,而且获得非常好的表现,今天就来看看 xgboost 到底是什么以及如何应用。 本文结构: 什么是 xgboost? 为什么要用它? …
美团网数据分析——到底有多少人知道这些餐厅?!
特别声明:本文仅兴趣交流,感兴趣的水友也可以在下面留言,转载请联系作者。 前言 就是出于好玩,也没那么多精力做同行业的数据整合,只是想了解有哪些餐厅一辈子都吃不起、哪些店是当下热门、上海餐饮地理分布情况是怎样的、本文也就…
从爬虫到用scikit-learn构建机器学习多元线性回归模型
一:前言 这是一个线性回归的学习笔记,数据源是我爱我家的北京朝阳区的房屋价格及其相关信息,有室、厅、大小、朝向、楼层层数、装修程度、单价、总价。然后利用scikit-learn 构建一个简单的多元线性回归模型并预测。介绍…
参加kaggle-home credit比赛 top1经验分享
为入门数据挖掘领域,我参加kaggle比赛积累经验,参加比赛时间21天,排名62/6660,达到top1。 image image.png 背景介绍 image image.png 大数据普及人们生活,因此,互联网公司提…
读书|《推荐系统实践》
评测指标 协同过滤 隐语义模型 基于图的模型 冷启动 利用标签数据 考虑上下文信息
《Aspect Level Sentiment Classification with Deep Memory Network》笔记
写在前面 网上已经有一篇笔记很好的记录了这篇论文《Aspect Level Sentiment Classification with Deep Memory Network》,见:西土城搬砖日常 笔者重新记录的目的是,…
天池比赛--“商场中精确定位用户所在店铺”分享
背景介绍 这是笔者参加的第一个大数据比赛,预赛最好成绩是前50名,但是由于后来竞争越发激烈(分类正确率差0.01,排名都能差上10多名…)和兴趣渐渐转到研究NLP上,最终没有坚持迭代优化模型,还是非常遗憾的。…
Zookeeper学习笔记
首先先引入官网对Zookeeper介绍: 意思就是说:Zookeeper是一个集中服务,用于维护配置信息,命名,提供分布式同步和提供组服务。而这类类型的服务被分布式程序使用的时候,不可避免的会发生错误和竞争条件,zook…