数据挖掘导论复习

文章目录

觉得有用的可以点个赞和收藏

第1章 认识数据挖掘

1、数据挖掘的定义

技术角度
利用一种或多种计算机学习技术,从数据中自动分析并提取信息的处理过程。
目的是寻找和发现数据中潜在的有价值的信息、知识、规律、联系和模式。
数据挖掘与计算机科学有关,一般使用机器学习、统计学、联机分析处理、专家系统和模式识别等多种方法来实现。
学科角度
数据挖掘是一门交叉学科,涉及数据库技术、人工智能技术、统计学、可视化技术、并行计算等多种技术。
商业角度
商业智能信息处理技术;
围绕商业目标开展的,对大量商业数据进行抽取、转换、分析和处理,从中提取辅助商业决策的关键性数据,揭示隐藏的、未知的或验证已知的规律性,是一种深层次的商业数据分析方法。

2、有指导学习和无指导学习

有指导学习定义
通过对大量已知分类或输出结果值的实例进行训练,调整分类模型的结构,达到建立能够准确分类或预测未知模型的目的。这种基于归纳的概念学习过程被称为有指导(监督)的学习。
无指导学习
在学习训练之前,无预先定义好分类的实例,数据实例按照某种相似性度量方法,计算实例之间的相似程度,将最为相似的实例聚类在一个组——簇(Cluster)中,再解释和理解每个簇的含义,从中发现聚类的意义。

3、数据挖掘的过程

一次数据挖掘实验分为4个步骤
(1)准备数据,包括准备训练数据和检验数据
(2)选择一种数据挖掘技术或算法,将数据提交给数据挖掘软件
(3)解释和评估结果
(4)模型应用
《数据挖掘导论复习》

4、数据挖掘的作用

建立有指导的学习模型和无指导聚类模型。

5、数据挖掘技术

神经网络
回归分析
关联分析
聚类技术

第2章 基本数据挖掘技术

1、决策树概念和C4.5算法的一般过程

概念
从数据产生决策树的机器学习技术称为决策树学习,简称决策树(Decision Tree)。
决策树是数据挖掘中最常用的一种分类和预测技术,使用其可建立分类和预测模型。
决策树模型是一个树状结构,树中每个节点表示分析对象的某个属性,每个分支表示这个属性的某个可能的取值,每个叶节点表示经历从根节点到该叶节点这条路径上的对象的值。模型通过树中的各个分支对对象进行分类,叶节点表示的对象值表达了决策树分类的结果。决策树仅有一个输出,若需要有多个输出,可以建立多棵独立的决策树以处理不同输出。
过程
(1)给定一个表示为“属性-值”格式的数据集T。数据集由多个具有多个输入属性和一个输出属性的实例组成。
(2)选择一个最能区别T中实例的输入属性,C4.5使用增益率来选择该属性。
(3)使用该属性创建一个树节点,同时创建该节点的分支,每个分支为该节点的所有可能取值。
(4)使用这些分支,将数据集中的实例进行分类,成为细分的子类。
(5)将当前子类的实例集合设为T,对数据集中的剩余属性重复(2)(3)步,直到满足以下两个条件之一时,该过程终止,创建一个叶子节点,该节点为沿此分支所表达的分类类别,其值为输出属性的值。
该子类中的实例满足预定义的标准,如全部分到一个输出类中,分到一个输出类中的实例达到某个比例;
没有剩余属性。

2、决策树关键技术:最大增益率

《数据挖掘导论复习》

3、决策树规则:决策树,产生式规则,正确率和覆盖率

《数据挖掘导论复习》

4、Apriori算法的基本思想

(1)生成条目集(Item Sets)。条目集是符合一定的支持度要求的“属性-值”的组合。那些不符合支持度要求的“属性-值”组合被丢弃,因此,规则的生成过程可以在合理的时间内完成。
(2)使用生成的条目集创建一组关联规则。

5、关联规则的置信度和支持度

使用置信度度量每个关联规则在前提条件下结果发生的可能性。
使用支持度度量包含了关联关系中出现的属性值的交易占所有交易的百分比。

6、K-means算法的基本思想

(1)随机选择一个K值,用以确定簇的总数。
(2)在数据集中任意选择K个实例,将它们作为初始的簇中心。
(3)计算这K个簇中心与其他剩余实例的简单欧氏距离(Euclidean Distance),用这个距离作为实例之间相似性的度量,将与某个簇相似度高的实例划分到该簇中,成为其成员之一。
(4)使用每个簇中的实例来计算该簇新的簇中心。
(5)如果计算得到新的簇中心等于上次迭代的簇中心,终止算法过程。否则,用新的簇中心作为簇中心并重复步骤(3)~(5)。

7、K-means聚类分析实例

第3章 数据库中的知识发现

1、KDD的定义

从数据集中提取可信的、新颖的、具有潜在使用价值的能够被人类所理解的模式的非繁琐的处理过程。
定义解析
KDD——一个处理过程,大部分步骤是系统自动执行的;
数据集——一个有关事实的集合;
模式——针对某个数据集,描述了数据自身的特性;
可信的——要求发现的模式必须经过了正确性检验,能够应用到新数据中;
新颖的——表示发现的模式应该是以前没有发现的、希望得到的新发现;
潜在使用价值——表示发现的模式应该有价值、有意义,价值和意义一般不能直接从数据中看出来或查询和搜索出来,是可以被利用的潜在价值;
可被人理解——发现的模式是人们容易理解的,从而更好的被评估和利用。

2、数据预处理:数据平滑和数据标准化

分箱平滑方法
《数据挖掘导论复习》

《数据挖掘导论复习》
《数据挖掘导论复习》

第5章 评估技术

1、评估分类类型输出模型:混淆矩阵和分类正确率

《数据挖掘导论复习》

2、评估数值型输出模型:平均绝对误差,均方误差,均方根误差

《数据挖掘导论复习》

第6章 神经网络

1、神经元模型

《数据挖掘导论复习》

2、BP神经网络结构

《数据挖掘导论复习》

3、BP算法的一般过程

(1)初始化网络
若有必要,变换输入属性值为[0,1]区间的数值数据,确定输出属性格式;
通过选择输出层、隐层和输出层的结点个数,来创建神经网络结构;
将所有连接的权重初始化为[-1.0,1.0]区间的随机值;
为学习参数选择一个[0,1]区间的值;
选取一个终止条件。
(2)对于所有训练集实例:
让训练实例通过神经网络;
确定输出误差;
使用Δ规则更新网络权重。
(3)如果不满足终止条件,重复步骤(2)。
(4)在检验数据集上检验网络的准确度,如果准确度不是最理想的,改变一个或多个网络参数,从(1)开始。

4、卷积神经网络的基本操作——卷积和池化

《数据挖掘导论复习》
《数据挖掘导论复习》

第7章 统计技术

1、简单线性回归

《数据挖掘导论复习》
《数据挖掘导论复习》
《数据挖掘导论复习》

2、贝叶斯分析:贝叶斯分类器

《数据挖掘导论复习》

3、凝聚聚类算法的一般步骤

(1)开始时,将每个数据实例放在不同的分类中;
(2)直到所有实例都成为某个簇的一部分;
①确定两个最相似簇;
②将在①中选中的簇合并为一个簇。
(3)选择一个由步骤(2)迭代形成的簇作为最后结果。

4、Cobweb分层聚类算法:CU值的计算

《数据挖掘导论复习》
《数据挖掘导论复习》

第8章 时间序列和基于Web的数据挖掘

1、时间序列挖掘及其处理过程

时间序列挖掘
对时间序列进行数据挖掘的过程,即从时间序列数据中提取未知的、具有潜在价值的与时间属性相关的知识或规律,用于短期、中期或长期预测。
时间序列数据挖掘的处理过程
1)确定数据挖掘目标,抽取并建立时间序列数据集,选择合适的数据挖掘技术或算法;
2)在时间序列中设置内部时间间隔,将时间序列分割为若干个子序列;
3)建立预测模型,应用模型预测未知值。

2、Web数据挖掘的三种类型

Web内容挖掘(Web Content Mining,WCM)
Web结构挖掘(Web Structure Mining,WSM)
Web使用挖掘(Web Usage Mining,WUM
《数据挖掘导论复习》

    原文作者:Code_HS
    原文地址: https://blog.csdn.net/qq_43570528/article/details/112387546
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞