数据挖掘(二) 系统结构

一,体系结构

《数据挖掘(二) 系统结构》
《数据挖掘(二) 系统结构》

数据的来源

  • 数据库服务器,
  • 数据库

数据挖掘的引擎

数据挖掘的模式

数据可视化技术的展示

二,数据类型

关系数据库

  • 使用最广泛

数据仓库

  • 各个分立的数据库统一

事务数据库

高级数据库系统和信息库

  • 空间数据库
  • 时间数据库和时间序列数据库
    时间数据库和时间序列数据库都存放与时间有关的数据。
    时间数据库通常存放包含时间相关属性的时间
    时间序列数据库存放随时间变化的值序列
    对时间数据库和时间序列数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。
  • 流数据
  • 多媒体数据库
  • 面向对象数据库和对象 – 关系数据库
    面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现传统数据库的功能,包括持久性,并发控制,可恢复性,一致性,和查询数据库的能力等。
    对象 – 关系数据库基于对象 – 关系 模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。
    面向对象数据库和对象 – 关系 数据库中的数据挖掘会设计一些新的技术,比如处理复杂对象结构,复杂数据类型,类和子类层次结构,构造集成以及方法和过程等等。
  • 异种数据库和遗产(legacy)数据库
  • 文本数据库和网络数据库

数据挖掘的主要方法

1,概念/类描述:特性化和区分
– 归纳 ,总结和对比数据的特性。
– 例如用户属性分析,电商用户,月消费额超过5000元的用户特征描述:30 – 40 岁之间,固定职业,信用程度良好。

2, 关联分析

  • 发现数据之间的关联规则,这些规则展示属性 – 值 频繁的在给定的数据中所一起出现的条件。
  • 广泛的应用于购物篮或事务分析

3,分类和预测

  • 通过构造函数(或模型)用来描述和区别类或概念,用来预测类型标志未知的对象类。
  • 例如,按照耗油量将汽车分类
  • 导出模型的表示: 判定树、分类规则、神经网络
  • 可以用来预报某些未知的或丢失的数字值。

4,聚类分析

  • 将类似的数据归类到一起,形成一个新的类别进行分析。
  • 组内最大化的相似性,组间最小化的相似性

5,孤立点分析

  • 孤立点 : 一些与数据的一般行为或模型不一致的孤立数据
    • 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。

6,趋势和演变分析

  • 描述行为随时间变化的对象的发展规律或趋势
  • 趋势和偏差: 回归分析
  • 序列模式匹配 : 周期性分析
  • 基于类似性的分析

7, 其他定向模式或统计分析

模式兴趣度的度量

比较困难度量

1,模式兴趣度的度量

  • 易于被人理解
  • 在某种程度上,对于新的或测试数据是有效的
  • 具有潜在效用
  • 新颖的
  • 符合用户确信的某种假设

2, 模式兴趣度的客观和主观度量、

  • 客观度量 :基于所发现模式的结构和关于他们的统计,比如:支持度(数据多少程度上对结论的支持),置信度等等
  • 主观度量: 基于用户对数据的判断。比如:出乎意料的,新颖的、可行动的等等。

数据挖掘算法的优化

  • 数据挖掘系统可以仅仅发现有趣的模式
  • 方法
    (1),首先生成所有模式然后过滤那些无趣的
    (2),仅仅生成有趣的模式 – 挖掘查询优化

数据挖掘学科综合性

《数据挖掘(二) 系统结构》
《数据挖掘(二) 系统结构》

数据挖掘的分类

《数据挖掘(二) 系统结构》
《数据挖掘(二) 系统结构》

1,根据所挖掘的数据库分类

  • 关系数据库,事务数据库 ,流式数据库,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时态数据库,文本数据库,多媒体数据库,异构数据库,历史数据库,

2,根据挖掘的知识类型

    • 特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析等等
    • 多种方法的集成和多层机挖掘

3,根据挖掘所用技术

    • 面向数据库的挖掘,数据仓库,OLAP,机器学习,统计学,可视化等等

4,根据挖掘所用的应用

    • 金融,电信,银行,欺诈分析,DNA分析,股票市场,WEB挖掘。
    原文作者:聂红波
    原文地址: https://zhuanlan.zhihu.com/p/33779541
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞