数据挖掘的方向
数据库技术角度
统计学角度
机器学习角度
一,数据挖掘的发展动力
1,数据量的增长
- 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。
2,数据量繁多,缺乏寻找有用的信息
3,数据仓库技术金额数据挖掘技术
- 数据仓库(Data Warehouse)和在线分析处理(OLAP)
- 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)
数据库技术的演化
- 文件系统(1960s和以前)
- 层次数据库和网状数据库(1970s)
- 关系数据模型,关系数据库管理系统(RDBMS)的实现(1980s早期)
- 各种高级数据库系统(扩展的关系数据库,面向对象数据库等等)
- 面向应用的数据库系统(spatial数据库,时序数据库,多媒体数据库等等)(1980s晚期)
- 数据挖掘,数据仓库,多媒体数据库和网络数据库(1990s)
- 流数据管理和挖掘
基于各种应用的数据挖掘
XML数据库和整合的信息系统
二,什么是数据挖掘
数据挖掘(从数据中发现知识)
- 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识
- 挖掘的不仅仅是数据,知识挖掘。
数据挖掘的引申
- 数据库中的知识挖掘(KDD)
知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获
数据挖掘的应用
- 数据分析和决策支持
1 市场分析和管理
(1) 数据从哪里来
- 信用卡交易,会员卡,商家优惠,客户服务,用户行为记录
(2) 目标市场
- 构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等
- 确定顾客的购买模式
(3) 交叉市场分析
货物销售之间的相互联系和相关性,以及基于这种联系上的预测
(4) 顾客分析
- 哪类顾客购买那种商品
- 聚类分析或分类预测
###### (5) 客户需求分析 - 确定适合不同顾客的最佳商品,用户购买商品分类
- 预测何种因素能够吸引新顾客,分析顾客购买产品的特征
###### (6) 概要信息提供 - 多维度的综合报告
- 统计概要信息(数据的集中趋势和变化)
2 公司风险分析和管理
(1)财务计划
- 现金流转分析和预测
- 交叉区域分析和时间序列分析(财务资金比率,趋势分析等)
(2) 资源计划
- 总结和比较资源花费
(3) 市场竞争
- 对竞争者和市场趋势的监控
- 将顾客按等级分组和基于等级的定价过程
- 将定价策略应用于竞争更激烈的市场中
3 欺诈行为检测和异常模式的发现
(1)方法
- 对欺骗行为进行聚类和建模,并进行孤立点分析
(2) 应用
- 卫生保健、零售业、信用卡服务、电信等
汽车保险:相撞事件的分析
非法交易 - 医疗保险
职业病人,医生以及相关数据分析
不必要的或相关的测试 - 电信 :电话呼叫欺骗行为
电话呼叫模型 :呼叫目的地,持续时间,日或周呼叫次数。分析该模型发现与期待标准的偏差 - 零售行业
- 欺骗检测和异常模式的监测(孤立点)
3 其他应用
- 文本挖掘(新闻组,电子邮件,文档)和WEB挖掘
数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为,分析网络销售的有效性。 - 流数据挖掘
- DNA和数据分析
数据挖掘的步骤
业务模式识别
- 了解应用的领域,应用的目标和相关的知识
创建目标数据集
- 选择数据
数据清理和预处理
数据缩减和变换
- 找到有用的特征,维数缩减/变量缩减,不变量的表示。
选择数据挖掘的功能
- 数据总结、分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等。
数据挖掘算法
模式评估和知识表示
- 可视化,转换,消除冗余
运用发现的知识