数据挖掘(二) 系统结构

2019年4月14日 231次阅读来源: 聂红波

一，体系结构

《数据挖掘(二) 系统结构》

数据的来源

数据库服务器，
数据库

数据挖掘的引擎

数据挖掘的模式

数据可视化技术的展示

二，数据类型

关系数据库

使用最广泛

数据仓库

各个分立的数据库统一

事务数据库

高级数据库系统和信息库

空间数据库
时间数据库和时间序列数据库
时间数据库和时间序列数据库都存放与时间有关的数据。
时间数据库通常存放包含时间相关属性的时间
时间序列数据库存放随时间变化的值序列
对时间数据库和时间序列数据库的数据挖掘，可以通过研究事物发生发展的过程，有助于揭示事物发展的本质规律，可以发现数据对象的演变特征或对象变化趋势。
流数据
多媒体数据库
面向对象数据库和对象 – 关系数据库
面向对象数据库是面向对象技术和数据库技术结合的产物，该技术对数据以对象的形式进行存储，并在这个基础上实现传统数据库的功能，包括持久性，并发控制，可恢复性，一致性，和查询数据库的能力等。
对象 – 关系数据库基于对象 – 关系模型构造，该模型通过处理复杂对象的丰富数据类型和对象定位等功能，扩充关系模型。
面向对象数据库和对象 – 关系数据库中的数据挖掘会设计一些新的技术，比如处理复杂对象结构，复杂数据类型，类和子类层次结构，构造集成以及方法和过程等等。
异种数据库和遗产（legacy）数据库
文本数据库和网络数据库

数据挖掘的主要方法

1，概念/类描述：特性化和区分
– 归纳，总结和对比数据的特性。
– 例如用户属性分析，电商用户，月消费额超过5000元的用户特征描述：30 – 40 岁之间，固定职业，信用程度良好。

2, 关联分析

发现数据之间的关联规则，这些规则展示属性 – 值频繁的在给定的数据中所一起出现的条件。
广泛的应用于购物篮或事务分析

3，分类和预测

通过构造函数（或模型）用来描述和区别类或概念，用来预测类型标志未知的对象类。
例如，按照耗油量将汽车分类
导出模型的表示：判定树、分类规则、神经网络
可以用来预报某些未知的或丢失的数字值。

4，聚类分析

将类似的数据归类到一起，形成一个新的类别进行分析。
组内最大化的相似性，组间最小化的相似性

5，孤立点分析

孤立点：一些与数据的一般行为或模型不一致的孤立数据

通常孤立点被作为“噪音”或异常被丢弃，但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。

6，趋势和演变分析

描述行为随时间变化的对象的发展规律或趋势
趋势和偏差：回归分析
序列模式匹配：周期性分析
基于类似性的分析

7，其他定向模式或统计分析

模式兴趣度的度量

比较困难度量

1，模式兴趣度的度量

易于被人理解
在某种程度上，对于新的或测试数据是有效的
具有潜在效用
新颖的
符合用户确信的某种假设

2，模式兴趣度的客观和主观度量、

客观度量：基于所发现模式的结构和关于他们的统计，比如：支持度（数据多少程度上对结论的支持），置信度等等
主观度量：基于用户对数据的判断。比如：出乎意料的，新颖的、可行动的等等。

数据挖掘算法的优化

数据挖掘系统可以仅仅发现有趣的模式
方法
（1），首先生成所有模式然后过滤那些无趣的
（2），仅仅生成有趣的模式 – 挖掘查询优化

数据挖掘学科综合性

《数据挖掘(二) 系统结构》

数据挖掘的分类

《数据挖掘(二) 系统结构》

1,根据所挖掘的数据库分类

关系数据库，事务数据库，流式数据库，面向对象数据库，对象关系数据库，数据仓库，空间数据库，时态数据库，文本数据库，多媒体数据库，异构数据库，历史数据库，

2，根据挖掘的知识类型

特征分析，区分，关联分析，分类聚类，孤立点分析/演变分析，偏差分析等等
多种方法的集成和多层机挖掘

3，根据挖掘所用技术

面向数据库的挖掘，数据仓库，OLAP，机器学习，统计学，可视化等等

4，根据挖掘所用的应用

金融，电信，银行，欺诈分析，DNA分析，股票市场，WEB挖掘。

    原文作者：聂红波
    原文地址: https://zhuanlan.zhihu.com/p/33779541
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。

一，体系结构

数据的来源

数据挖掘的引擎

数据挖掘的模式

数据可视化技术的展示

二，数据类型

关系数据库

高级数据库系统和信息库

数据挖掘的主要方法

2, 关联分析

4，聚类分析

5，孤立点分析

6，趋势和演变分析

7， 其他定向模式或统计分析

模式兴趣度的度量

1，模式兴趣度的度量

数据挖掘算法的优化

数据挖掘学科综合性

数据挖掘的分类

1,根据所挖掘的数据库分类

7，其他定向模式或统计分析