背景介绍:根据患者眼部状况的观察条件,利用决策树来向患者推荐隐形眼镜的类型。 1. 收集数据 数据集来自于UCI数据库的隐形眼镜数据集。 数据格式 2. 准备数据 解析tab键分割的数据行。 def read2DataS…
标签:数据挖掘
数据挖掘之数据预处理
1. 结构化数据的特征 1. 结构化数据特性 2. 常见数据集类型 2. 数据集类型 3. 数据预处理的流程 3. 预处理流程 4. 数据质量 数据挖掘过程中 数据…
数据挖掘之产生模型VS判别模型
1.概述 产生式模型:无穷样本–>概率密度模型–>产生模型–>预测 判别式模型:有限样本–>判别函数–>预测模型–&g…
【实现】利用罗杰斯特回归预测疝气病马死亡率
利用Logistics Regression罗杰斯特回归预测疝气病马死亡率。 1. 收集数据 收集的数据划分成训练集和测试集,每个样例包括21个特征和1个类别标签。 数据格式 2. 准备数据 要求数据类型为:数值型;另外…
数据挖掘之贝叶斯
贝叶斯推理 贝叶斯法则 朴素贝叶斯分类器 应用:文本分类 1. 贝叶斯推理 –提供了推理的一种概率手段 –两个基本假设: (1)待考察的量遵循某概率分布 (2)可根据这些概率以及观察到的数据进行推…
【大数据部落】WEKA垃圾邮件文本挖掘分类模型
业务背景 电子邮件的应用变的十分广泛,它给人们的生活带来了极大的方便,然而,作为其发展的副产品——垃圾邮件,却给广大用户、网络管理员和ISP(Internet服务提供者)带来了大量的麻烦。垃圾邮件问题日益严重,受到研究人…
Python数据挖掘05-json格式
在网页爬虫中经常需要传输和解析json数据,JSON的全称是”JavaScript Object Notation”,意思是JavaScript对象表示法,它是一种基于文本,独立于语言的轻量级数据交换格式。XML也是一种…
数据挖掘之关联规则
1. 关联规则概述 反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测得到。 2. 基本概念 (1)项 对一个数据表而…
数据挖掘之分类算法
1 基本概念 1.1 分类定义 简言之,确定对象属于哪个预定义的目标类。 学术一点:…
数据挖掘之聚类
文章大纲: 聚类概念 聚类应用 聚类目标 相似性计算方法 聚类方法分类 划分方法 1. 概念 按照数据之间的相似性,对数据集进行分组或分类(簇, cluster)的过程;试图使类内差距最小化,类间差距最大化。 利用聚类结…
图像分类综述
计算机视觉三个层次 计算机视觉三层次 1. 图像分类概述 1.1 图像分类是指根据一定的分类规则将图像自动分到一组预定义类别中的过程。 1.2 图像分类方法的划分十分多样。根据图像语义内…
数据挖掘之认识数据、描述数据
1.1 数据对象与属性 1.1 数据对象与属性 1.2 数据的基本统计描述 1.2 数据的基本统计描述 1.3 数据可视化 1.3 数据可视化 1.4 度量数据相似性 1.4 …