数据挖掘的流程与方法 1.任务: 关联分析 聚类分析 分类分析 异常分析 特异组群分析 演变分析 2.方法: 统计 在线处理分析 情报检索 机器学习 分类 实际应用: 应用分类/趋势预测/推荐关联类商品 回归分析 实际应…
分类:数据挖掘
USF MSDS501 计算数据科学中文讲义 2.5 数据别名
来源: ApacheCN『USF MSDS501 计算数据科学中文讲义』翻译项目 原文:Data Aliasing 译者:飞龙 协议:CC BY-NC-SA 4.0 编程最棘手的事情之一是确切地确定变量所指的数据。 请记…
one-hot编码sklearn实现详解
one-hot编码是特征处理中的必备,在项目中我们是这么应用的, # sklearn用法 from sklearn import preprocessing enc = OneHotEncoder(sparse = Fa…
数据挖掘复习笔记---04.4分类问题之 Logistic Regression
分类问题之 Logistic Regression 线性回归简介 线性模型 向量形式 可解释性 w 可以理解为特征的权重 目标 对数几率回归, Logistic Regression 训练过程(梯度下降) 分类预测步骤 …
数据挖掘复习笔记---04.3分类问题之 Naive Bayes
分类问题之 Naive Bayes 简介 条件概率 P(A|B)*P(B) = P(A, B) = P(B|A)*P(A) 全概率公式 分类步骤 朴素贝叶斯假设特征之间相互独立 1.计算 P(A|C0) = P(A1, …
数据挖掘复习笔记---04.2分类问题之 KNN
分类问题之 KNN 简介 lazy learning, 训练阶段仅仅保存样本, 没有显式的学习过程, 待收到测试样本后再进行处理 三要素: k值的选择, 距离度量(街区, 欧式, 闵可夫斯基), 分类决策规则(major…
数据挖掘复习笔记---04.1分类问题之决策树
分类问题之决策树 优点 复杂度较低 效率高 非常适用于简单数据集的分类 抗噪,对噪声鲁棒 选取最优决策树是NP完全问题 划分选择 使结点纯度越来越高 信息熵 Ent(D) = -Σ (Pk)·log(Pk) 信息增益, …
数据挖掘复习笔记---03.数据预处理
数据预处理 Outline 概述,Abstract,什么是预处理,为什么,怎么办 数据清洗,data cleaning 数据整合,data integration 压缩,reduction 变换,离散化 概述 为什么 如…
数据挖掘复习笔记---02.数据
数据 四个问题 数据类型(用什么类型,用什么工具) 数据质量(噪声,离散点,缺失值,异常点,重复) 预处理(提高数据质量,使数据可以被特定的工具处理) 相似性和距离度量 本节大纲 关于数据的基本概念 如何用统计学方法描述…
数据挖掘复习笔记---01.概述
Chp1 DM, Data Mining 为什么需要 Data Mining 信息技术的发展,计算机—存储和处理信息,网络—传播信息,物联网—收集信息,移动互联网—更加便捷…
2019网易互娱数据挖掘实习生笔试部分记录
今晚做完了网易互娱数据挖掘实习生的笔试题,虽然大部分的题目都不太记得了。但是还是有一些印象比较深的坑需要填一下。比起腾讯和字条跳动难度适中,不算很大,字节的笔试挂了。其实这次感觉自己做的也不是挺好哈哈哈。 1、题型 笔试…
如何基于匹配预设句式,动态提取用户评价标签
网络经济的发展使我们的消费渠道早已不止于实体场景。来自于用户的线上评价,成为如今影响我们消费行为决策的重要因素。 背景 在网上购物时,即使你已经浏览了商家对于商品的描述,你还是不会立即决定购买它,因为你不确定这些描述是否…