一、C4.5算法
C4.5是决策树算法ID3的改进,它继承了ID3 算法的优点,并用信息增益率选择划分属性,能处理非离散或不完整的数据。
二、K均值(K-means)算法
K-means是基于距离的聚类算法,师徒找出满足方差最小的K个聚类。
三、支持向量机(SVM)
SVM选择合适的核函数将低维空间中难以划分的向量集映射到高维空间,建立一个分割超平面使其与支持向量的距离最大。
四、最大期望(EM)算法
EM算法在概率模型中寻找参数最大似然估计或最大后验估计。算法包含E和M两个步骤。E步计算完整数据的对数似然函数期望;M步最大化期望以改进模型参数。
五、Apriori算法
Apriori算法是布尔关联规则频繁项集的挖掘算法,其核心是基于两阶段频集思想的递推算法。
六、PageRank算法
PageRank算法根据网页之间的超链接评价网页的相关性与重要性,用于衡量特定网页相对于搜索引擎索引中其他网页的重要程度。
七、AdaBoost算法
AdaBoost使用加权选取训练数据和加权投票机制,不断迭代地训练,将若干个弱分类器融合为一个强分类器。
八、K最近邻(KNN)分类算法
KNN是数据挖掘的经典分类算法,通过对象间距离作为各个对象之间的非相似性指标。
九、朴素贝叶斯算法
朴素贝叶斯算法是一种利用概率统计知识进行分类的统计学方法,其基本假定是给定目标值时属性之间相互条件独立。
十、分类与回归树(CART)
CART是一个二叉决策树,用基尼系数选择划分属性,递归生成树。