数据挖掘主要分为4类,即预测、分类、聚类和关联,根据不同的挖掘目的选择相应的算法。下面对R语言中常用的数据挖掘包做一个汇总:
连续因变量的预测:
stats包 lm函数,实现多元线性回归
stats包 glm函数,实现广义线性回归
stats包 nls函数,实现非线性最小二乘回归
rpart包 rpart函数,基于CART算法的分类回归树模型
RWeka包 M5P函数,模型树算法,集线性回归和CART算法的优点
adabag包 bagging函数,基于rpart算法的集成算法
adabag包 boosting函数,基于rpart算法的集成算法
randomForest包 randomForest函数,基于rpart算法的集成算法
e1071包 svm函数,支持向量机算法
kernlab包 ksvm函数,基于核函数的支持向量机
nnet包 nnet函数,单隐藏层的神经网络算法
neuralnet包 neuralnet函数,多隐藏层多节点的神经网络算法
RSNNS包 mlp函数,多层感知器神经网络
RSNNS包rbf函数,基于径向基函数的神经网络
离散因变量的分类:
stats包 glm函数,实现Logistic回归,选择logit连接函数
stats包 knn函数,k最近邻算法
kknn包 kknn函数,加权的k最近邻算法
rpart包 rpart函数,基于CART算法的分类回归树模型
adabag包bagging函数,基于rpart算法的集成算法
adabag包boosting函数,基于rpart算法的集成算法
randomForest包randomForest函数,基于rpart算法的集成算法
party包ctree函数,条件分类树算法
RWeka包OneR函数,一维的学习规则算法
RWeka包JPip函数,多维的学习规则算法
RWeka包J48函数,基于C4.5算法的决策树
C50包C5.0函数,基于C5.0算法的决策树
e1071包svm函数,支持向量机算法
kernlab包ksvm函数,基于核函数的支持向量机
e1071包naiveBayes函数,贝叶斯分类器算法
klaR包NaiveBayes函数,贝叶斯分类器算分
MASS包lda函数,线性判别分析
MASS包qda函数,二次判别分析
nnet包nnet函数,单隐藏层的神经网络算法
RSNNS包mlp函数,多层感知器神经网络
RSNNS包rbf函数,基于径向基函数的神经网络
聚类:
Nbclust包Nbclust函数可以确定应该聚为几类
stats包kmeans函数,k均值聚类算法
cluster包pam函数,k中心点聚类算法
stats包hclust函数,层次聚类算法
fpc包dbscan函数,密度聚类算法
fpc包kmeansruns函数,相比于kmeans函数更加稳定,而且还可以估计聚为几类
fpc包pamk函数,相比于pam函数,可以给出参考的聚类个数
mclust包Mclust函数,期望最大(EM)算法
关联规则:
arules包apriori函数,Apriori关联规则算法