对数据分析越来越深入,越来越发现数据标准化的重要性,再高明的数据分析技术,没有规范统一的数据仓库,也是“巧妇难为无米之炊”。遂从头再对数据仓库技术进行一边梳理。 1. 维度建模理论概要 1.1 维度设计的主要流程 1.1…
分类:数据挖掘
新书《全栈数据之门》完整目录
全栈数据之门 前言 自强不息,厚德载物 0x1 Linux,自由之光 0x10 Linux,你是我的眼 0x11 Linux 基础,从零开始 01 Linux 之门 02 文件操作 03 权限管理 04 软件安装 05 …
数据挖掘 十大算法(持续更新)
C4.5 C4.5算法 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法。C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 用信息增益率来选择属性,克服了用信息增益选择…
【学习摘录】机器学习特征选择
应用过机器学习进行数据挖掘的同学应该都知道特征选择对模型表现的重要性。本文基于网上经典特征选择相关文章整理出干货:常用方法分类以及调包侠该如何用sklearn快速上手,供大家参考。 (一)预处理: 1 无量纲化: 1.1…
数据科学之大数据知识体系大全
一 浅谈数据科学 数据科学(Data Science)这一概念自大数据崛起也随之成为数据领域的讨论热点,从去年开始,“数据科学家”便成为了一个工作职位出现在各种招聘信息上。那么究竟什么是数据科学?大数据和数据科学又是什么…
数据分析师必读书单分享
楚江数据经常浪迹各类有关数据类文章中网站中,做做搬运工。在这里跟大家分享下数据分析师的知识结构,数据分析师的知识结构应当包括数据能力、业务sense、思维方法三个维度。网址http://www.chujiangdata.…
新书《全栈数据之门》预告
终于,可以给各位关心《全栈数据之门》的亲人、朋友一个交待了! 经过出版社三个多月的编辑与排版,目前已经编辑完成了最后的版本。就等过完年,吃好、喝好、玩好后回来,就可以开始印刷了。 预计在2017年3月份可以与各位读者见面…
从原理推导逻辑斯蒂回归——Logit变换和潜在因子误差
逻辑斯蒂回归(Logistic Regression,以下简称LR)的应用还有工程学的思路一般介绍地都很清楚,大多数方法都从Sigmoid函数开始。本博文试图通过其他视角来重新理解LR是如何推导的。 Logit变换 对于…
与相关系数相关的二三事
回到原点 Let me think… 我们什么时候学过相关系数(Correlation)一个词语。对了,就是验证模型好坏的R方里面的R。在R语言里调用也很简单: cor(x, y) 但是,该如何理解相关系数呢…
完整数据团队Tips(关于BI系统、数据仓库、数据挖掘和数据实验的27条建议)
参考The Strong Data Science Audit: How does your organization’s data strategy stack up?一文 分析和仪表盘 使用第三方获取用户…
用户地理位置的聚类算法实现—基于DBSCAN和Kmeans的混合算法
1. 聚类算法简介 聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器…
用Node.js实现机器学习中的K最近邻分类算法
1. 简介 源于数据挖掘的一个作业, 这里用Node.js来实现一下这个机器学习中最简单的算法之一k-nearest-neighbor算法(k最近邻分类法)。 k-nearest-neighbor-classifier …