可视化
目标:
利用人类的视觉从数据中提取信息
对复杂数据集提供概览
标识数据中的结构、模式、趋势、异常和联系
分类:
科学可视化
虚拟现实
信息可视化
举例:
雷达图:描述几个物体的多维属性(也可实现每个属性和理想属性的对比);
x1yn: 描述分类,如表格数据,x轴为属性名,y轴为数值,使用不同的颜色区分不同的记录行
plot: 区分离群点
颜色分级图: X为序列值,如时间; y为离散值,如ip;图上表示特定时间段,某IP的流量(使用颜色块进行分级)
双向流量图:
X轴相同在中间,y轴两个方向都为正, 如x为时间,y1为ip1的流量y2为ip2的流量,可以非常方便地形成对比
3d chart图: 双向流量图不太好找时,也可以用来完成对比功能
模型评估
什么是有趣的:
易于理解
对新数据有效
新颖的
潜在有用
产生所有模型:
不现实,低效的
产生有趣模式:
非常期望,仍是挑战
哪个模型好
决策树: 计算速度快,易于理解
神经元网络:鲁棒性好,数据多样,并行计算
贝叶斯学习: 应用线性知识,有向图标示
元学习: 实现模型互补
数据处理
数据分类
结构化数据: 约束较强,如table
半结构化数据: xml和html等。 约束较弱
非结构化数据: 音频、视频
处理策略
输入数据:
属性选择:
找到属性子集; 测试是否满足特别标准; 重新搜索直到到指定标准
分类: filter(独立于学习算法,基于可分性,有fisher判断和邻域覆盖;基于相关性,有互信息的和粗糙集的), wrapper(学习方法包括在选择过程中)添加属性( 问题:会导致决策树分类性能降低;分治决策树学习器和割治规则学习器存在这个问题;朴素贝叶斯不受随机属性影响) 特定方案的选择
数值属性离散化:
原则: 某些分类算法(朴素贝叶斯)只能处理名词属性,或者速度比较慢
分类: 全局离散(单规则1R学习方案,设置阀值避免过拟合)局部离散(C4.5 在分支上进行离散) 全局优于局部离散; 离散后属性很难保证原有数据的有序性 无监督离散(等值区间装箱:过于粗糙;等频区间装箱)
离散属性转化为数值
分类:多变量编码(对距离不敏感,适用于变量之间没有明确关系的变量,量太大);二值属性编码(可以用整数代替)
属性转化: 原始数据运算得到 Extraction
主成分分析 PCA:(主成分之间互不相关,适合回归分析,贝叶斯方法)
随机投影(将数据投影到维数预先设定好的子空间,能很好保持距离关系,计算成本低很多)
从文本到属性向量
比较复杂
自动数据清理
想法很好,实现起来比较难
稳健回归(处理离群点的统计方法称为稳健型)
最小二乘回归(处理噪声,放大误差): 二乘方距离衡量
绝对值距离衡量, 二乘中值距离衡量(减少误差)
输出数据:
样本重采样和元学习算法
十大经典算法
分类:
C4.5
核心算法是ID3,对ID3的改进:
使用信息增益率来选择属性,克服了信息增益偏向选择取值多的属性的不足;
在树构造过程中进行剪枝
能够完成对连续属性的离散化处理
能够对不完整数据进行处理
K最近邻
是分类算法,也根据 近朱者赤近墨者黑
CART
分类与回归树,在分类树下有两个关键思想,第一个是递归地划分自变量空间,第二个是用验证数据进行剪枝。
朴素贝叶斯
数学基础非常坚实,可处理非完整数据,容易理解;
统计学习(基于小样本)
SVM(Support Vector Maschine)
基本思想就是提高维度
EM:
最大期望算法,在聚类中寻找最大似然估计。是否一类使用期望判断
频繁模式:
Apriori:
关联规则频繁项集中影响最大的算法
搜索引擎:
PageRank:
是google算法重要内容。通过链接的数量排网页的顺序,如论文被引述越高则重要性越高。
基本思想:
从许多优质网页链接过来的网页,必定也是优质网页。类似于文献引文机制,如果A连接到B,那么相当于A对B投票了, 引入PR值作为页面的重要性
基本模型:
随机冲浪者模型
优点:
与查询无关的静态算法; 比较客观公平
缺点:
PR值与主题之间的对应关系不清晰; 其实新网页,偏重旧网页,没有考虑网站的性能问题
聚类:
K-Means:
聚类算法,根据近朱者赤近墨者黑。 是否一类使用距离判断。
先随机分配K个中心点,将每个实例根据距离计算得到K个簇;分别计算各簇中所有实例的均值,作为新的中心;迭代以上两步,直到中心点无变化。
只能处理数值性数值,如果是离散需要转换为0,1,2..等
专家学习:
Adaboost: 迭代算法,类似于连机归纳法