数据挖掘笔记(5)——数据处理、模型评估、可视化、十大经典算法

可视化

目标:

        利用人类的视觉从数据中提取信息

        对复杂数据集提供概览

        标识数据中的结构、模式、趋势、异常和联系    

分类:

        科学可视化

        虚拟现实

        信息可视化

举例:

        雷达图:描述几个物体的多维属性(也可实现每个属性和理想属性的对比); 

        x1yn:  描述分类,如表格数据,x轴为属性名,y轴为数值,使用不同的颜色区分不同的记录行

        plot: 区分离群点

        颜色分级图: X为序列值,如时间; y为离散值,如ip;图上表示特定时间段,某IP的流量(使用颜色块进行分级)

        双向流量图:

        X轴相同在中间,y轴两个方向都为正, 如x为时间,y1为ip1的流量y2为ip2的流量,可以非常方便地形成对比

       3d chart图: 双向流量图不太好找时,也可以用来完成对比功能

模型评估

什么是有趣的:

    易于理解

    对新数据有效

    新颖的

    潜在有用

产生所有模型:

    不现实,低效的

产生有趣模式:

    非常期望,仍是挑战

哪个模型好

    决策树: 计算速度快,易于理解

    神经元网络:鲁棒性好,数据多样,并行计算

    贝叶斯学习: 应用线性知识,有向图标示

    元学习: 实现模型互补

 

数据处理

数据分类

        结构化数据: 约束较强,如table

        半结构化数据: xml和html等。 约束较弱

        非结构化数据: 音频、视频   

处理策略

输入数据:

属性选择:

      找到属性子集; 测试是否满足特别标准; 重新搜索直到到指定标准

      分类: filter(独立于学习算法,基于可分性,有fisher判断和邻域覆盖;基于相关性,有互信息的和粗糙集的), wrapper(学习方法包括在选择过程中)添加属性( 问题:会导致决策树分类性能降低;分治决策树学习器和割治规则学习器存在这个问题;朴素贝叶斯不受随机属性影响) 特定方案的选择

数值属性离散化:

      原则: 某些分类算法(朴素贝叶斯)只能处理名词属性,或者速度比较慢

      分类: 全局离散(单规则1R学习方案,设置阀值避免过拟合)局部离散(C4.5 在分支上进行离散) 全局优于局部离散; 离散后属性很难保证原有数据的有序性 无监督离散(等值区间装箱:过于粗糙;等频区间装箱)

离散属性转化为数值

      分类:多变量编码(对距离不敏感,适用于变量之间没有明确关系的变量,量太大);二值属性编码(可以用整数代替)             

       属性转化: 原始数据运算得到 Extraction

      主成分分析 PCA:(主成分之间互不相关,适合回归分析,贝叶斯方法)

      随机投影(将数据投影到维数预先设定好的子空间,能很好保持距离关系,计算成本低很多)

从文本到属性向量

      比较复杂

自动数据清理

      想法很好,实现起来比较难

      稳健回归(处理离群点的统计方法称为稳健型)

      最小二乘回归(处理噪声,放大误差): 二乘方距离衡量

      绝对值距离衡量, 二乘中值距离衡量(减少误差)

输出数据: 

      样本重采样和元学习算法

十大经典算法

分类:

C4.5  

 核心算法是ID3,对ID3的改进:

        使用信息增益率来选择属性,克服了信息增益偏向选择取值多的属性的不足;       

        在树构造过程中进行剪枝

        能够完成对连续属性的离散化处理

        能够对不完整数据进行处理

K最近邻

      是分类算法,也根据 近朱者赤近墨者黑

CART

      分类与回归树,在分类树下有两个关键思想,第一个是递归地划分自变量空间,第二个是用验证数据进行剪枝。

朴素贝叶斯

      数学基础非常坚实,可处理非完整数据,容易理解;

统计学习(基于小样本)

SVM(Support Vector Maschine)

      基本思想就是提高维度

EM:

      最大期望算法,在聚类中寻找最大似然估计。是否一类使用期望判断

频繁模式:   

Apriori:

      关联规则频繁项集中影响最大的算法

搜索引擎:    

PageRank:

是google算法重要内容。通过链接的数量排网页的顺序,如论文被引述越高则重要性越高。

基本思想:     

      从许多优质网页链接过来的网页,必定也是优质网页。类似于文献引文机制,如果A连接到B,那么相当于A对B投票了, 引入PR值作为页面的重要性

基本模型:

      随机冲浪者模型      

优点:  

      与查询无关的静态算法; 比较客观公平

缺点:  

      PR值与主题之间的对应关系不清晰;  其实新网页,偏重旧网页,没有考虑网站的性能问题 

聚类:

K-Means:

聚类算法,根据近朱者赤近墨者黑。 是否一类使用距离判断。

先随机分配K个中心点,将每个实例根据距离计算得到K个簇;分别计算各簇中所有实例的均值,作为新的中心;迭代以上两步,直到中心点无变化。

只能处理数值性数值,如果是离散需要转换为0,1,2..等

专家学习:

    Adaboost: 迭代算法,类似于连机归纳法

    原文作者:常用算法
    原文地址: https://blog.csdn.net/dananhai381/article/details/10359153
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞