分类：数据挖掘

Kaggle5000部电影数据分析

1. 项目介绍来自Kaggle社区上的数据集，TMDB 5000 Movie Dataset。 2. 提出问题 a. 电影的类型会随着时间变化吗？若变化，是如何变化的？ b. 对于不同的电影类型，支出与利润的关系是如何…

【火炉炼AI】机器学习008-简单线性分类器解决二分类问题 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) …

基于上一篇由爬虫在豆瓣上得到的数据，我将进行简单的数据分析。考虑到后期数据处理都是用xlsx，所以这对前面的存储数据的方式做一个修改，如下： def parse(self, response): self.log('s…

最近使用爬虫爬了一下简书，半天的时间爬取了简书20w用户数据和40w的follow关系。这些存在mysql里面的闲着也是闲着，想试着做一些有意思的数据统计和社交关系分析。最受欢迎的作者我统计了简书上面粉丝数最多和被喜…

在 Kaggle 的很多比赛中，我们可以看到很多 winner 喜欢用 xgboost，而且获得非常好的表现，今天就来看看 xgboost 到底是什么以及如何应用。本文结构：什么是 xgboost？为什么要用它？ …

特别声明：本文仅兴趣交流，感兴趣的水友也可以在下面留言，转载请联系作者。前言就是出于好玩，也没那么多精力做同行业的数据整合，只是想了解有哪些餐厅一辈子都吃不起、哪些店是当下热门、上海餐饮地理分布情况是怎样的、本文也就…

一：前言这是一个线性回归的学习笔记，数据源是我爱我家的北京朝阳区的房屋价格及其相关信息，有室、厅、大小、朝向、楼层层数、装修程度、单价、总价。然后利用scikit-learn 构建一个简单的多元线性回归模型并预测。介绍…

为入门数据挖掘领域，我参加kaggle比赛积累经验，参加比赛时间21天，排名62/6660，达到top1。 image image.png 背景介绍 image image.png 大数据普及人们生活，因此，互联网公司提…

评测指标协同过滤隐语义模型基于图的模型冷启动利用标签数据考虑上下文信息

写在前面网上已经有一篇笔记很好的记录了这篇论文《Aspect Level Sentiment Classification with Deep Memory Network》，见：西土城搬砖日常笔者重新记录的目的是，…

背景介绍这是笔者参加的第一个大数据比赛，预赛最好成绩是前50名，但是由于后来竞争越发激烈（分类正确率差0.01,排名都能差上10多名…）和兴趣渐渐转到研究NLP上，最终没有坚持迭代优化模型，还是非常遗憾的。…

首先先引入官网对Zookeeper介绍：意思就是说：Zookeeper是一个集中服务，用于维护配置信息，命名，提供分布式同步和提供组服务。而这类类型的服务被分布式程序使用的时候，不可避免的会发生错误和竞争条件，zook…