利用Logistics Regression罗杰斯特回归预测疝气病马死亡率。 1. 收集数据 收集的数据划分成训练集和测试集,每个样例包括21个特征和1个类别标签。 数据格式 2. 准备数据 要求数据类型为:数值型;另外…
分类:数据挖掘
数据挖掘之贝叶斯
贝叶斯推理 贝叶斯法则 朴素贝叶斯分类器 应用:文本分类 1. 贝叶斯推理 –提供了推理的一种概率手段 –两个基本假设: (1)待考察的量遵循某概率分布 (2)可根据这些概率以及观察到的数据进行推…
【大数据部落】WEKA垃圾邮件文本挖掘分类模型
业务背景 电子邮件的应用变的十分广泛,它给人们的生活带来了极大的方便,然而,作为其发展的副产品——垃圾邮件,却给广大用户、网络管理员和ISP(Internet服务提供者)带来了大量的麻烦。垃圾邮件问题日益严重,受到研究人…
Python数据挖掘05-json格式
在网页爬虫中经常需要传输和解析json数据,JSON的全称是”JavaScript Object Notation”,意思是JavaScript对象表示法,它是一种基于文本,独立于语言的轻量级数据交换格式。XML也是一种…
数据挖掘之关联规则
1. 关联规则概述 反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测得到。 2. 基本概念 (1)项 对一个数据表而…
数据挖掘之分类算法
1 基本概念 1.1 分类定义 简言之,确定对象属于哪个预定义的目标类。 学术一点:…
数据挖掘之聚类
文章大纲: 聚类概念 聚类应用 聚类目标 相似性计算方法 聚类方法分类 划分方法 1. 概念 按照数据之间的相似性,对数据集进行分组或分类(簇, cluster)的过程;试图使类内差距最小化,类间差距最大化。 利用聚类结…
图像分类综述
计算机视觉三个层次 计算机视觉三层次 1. 图像分类概述 1.1 图像分类是指根据一定的分类规则将图像自动分到一组预定义类别中的过程。 1.2 图像分类方法的划分十分多样。根据图像语义内…
数据挖掘之认识数据、描述数据
1.1 数据对象与属性 1.1 数据对象与属性 1.2 数据的基本统计描述 1.2 数据的基本统计描述 1.3 数据可视化 1.3 数据可视化 1.4 度量数据相似性 1.4 …
数据挖掘之分类算法(补)
01. 基于规则的分类器rule-based classifier 0.1 相关概念 通过一系列规则“如果。。。就。。。”,来进行分类 规则:(condition)–> y condition:属性的合…
Hadoop技术内幕-架构篇-阅读笔记
主要用来理解yarn如何运行 1.4 源代码目录结构 bin 基本脚本 etc 配置信息 include 编程库头文件 lib 动态和静态库 libexec shell配置文件所在目录 sbin 各个服务启动和停止脚本 …
ML-文本相似度
局部敏感哈希(LSH) 文本相识度 计算文档文本相识度 主要方法 欧氏距离 编辑距离 余弦距离 Jaccard 距离 距离越近 相识度越高 负比 相识度公式 公式 文档的Shingling 为了计算 所以需要文档划分为小…