数据挖掘的流程与方法
1.任务:
- 关联分析
- 聚类分析
- 分类分析
- 异常分析
- 特异组群分析
- 演变分析
2.方法:
- 统计
- 在线处理分析
- 情报检索
机器学习
分类
- 实际应用: 应用分类/趋势预测/推荐关联类商品
回归分析
- 实际应用: 预测销售趋势
聚类
- 实际应用: 分类
关联规则
- 包括两个阶段: 从海量数据中找到高频项目组/产生关联规则
- 实际应用: 预测客户需求
Web数据挖掘
- 常用算法: PageRank算法/HITS算法/LOGSOM算法
- 问题: 用户分类/用户页面停留时间/内容时效性/页面链入链出/
- 专家系统
- 模式识别
神经网络方法
神经网络模型的种类:
- 用于分类预测和模式识别的前馈式: 函数型网络/感知机
- 用于联想记忆和优化算法的反馈式: 离散模型/连续模型
- 用于聚类的自组织映射: ART模型
3.步骤:
one.业务理解
阶段目标
- 明确商业问题和数据挖掘目标
- 制定项目计划
工作任务
- 业务需求调研,问题背景
- 项目资源评估,确定资源需求
- 明确业务目标和成功的标准
- 挖掘目标确定,可行性,明确数据挖掘目标和成功标准
- 项目计划制定,指导项目实施
实施要点
- 充分的需求调研和沟通交流
- 合理的资源、约束条件假设
- 合适的挖掘结果应用场景设定
two.数据理解
阶段目标
- 确定建模所需用的数据
- 探索建模需要的目标变量
工作任务
- 数据字典编制,梳理内外部数据类型
- 明确数据业务指标含义
- 质量校验,确保数据全面性和可用性
目标变量探索,为模型构建做准备
- 数据的数据量(维度和样本大小)
- 数据的质量(缺失值、异常值、不一致性等)
- 数据的分布规律(各种统计指标)
实施要点
- 必备的内外部数据可获取和可干预
- 数据一致性、完整性、准确性
- 目标因子初步分析确定
three.数据准备
阶段目标
- 建立数据集市或宽表
工作任务
数据集市或宽表设计
- 将多个表信息进行整合:表之间的联接/明细数据的汇总加工
- 处理数据质量问题: 缺失值/异常值
数据清洗、加载、转换
- 数据的字段进行变换: 规范化/标准化
- 或都将数据进行映射变换,如Log变化
- 数值型按区间转换成名词型字段
特征工程
- 从业务角度加工新的计算指标
- 进行自动特征构建、特征选择、特征降维
- 数据质量校验
- 数据标准化
实施要点
- 高效的数据保障项目进度和质量
four.建立模型
阶段目标
- 选择合适的技术建模
- 实现数据挖掘目标
工作任务
- 技术选型,选择合适的模型算法
- 样本选取,确定训练样本、测试样本和验证样本
- 模型建立,筛选变量、模型训练、模型测试
- 模型评估,评估模型是否满足数据挖掘目标
实施要点
- 合适的技术帮助实现挖掘目标
- 样本数据真实反映业务需求
- 全面评估模型数据挖掘效果
five.检验模型
阶段目标
- 进行模型的业务应用测试(A/B测试)
- 判断是否实现商业目标
工作任务
- 模型试用,确定业务场景,进行模型应用测试,收集反馈效果
- 效果评价,对测试效果进行评估分析,判断模型是否满足商业目标
实施要点
- 合适的业务场景试用方案
- 全面科学的效果评价
six.结果部署
阶段目标
- 把数据挖掘成果部署到商业环境,应用于生产
工作任务
- 规划部署,制定部署计划和方案
- 监控与维护,实时跟踪,验证商业目标达成情况
- 总结报告,经验积累
实施要点
- 科学规划,保障无缝部署
- 即时监控及维护响应,保障运营
- 全面的总结分析,积累经验