**
各种分类算法的优缺点
**
朴素贝叶斯:
朴素贝叶斯的优点:对小规模的数据表现很好,适合多分类任务,适合增量式训练。算法比较简单,常用于文本分类。 分类准确度高,速度快。
朴素贝叶斯的缺点:对输入数据的表达形式很敏感。由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好。
决策树;
决策数优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。
缺点:容易产生过拟合
逻辑回归:
Logistic回归优点:1、实现简单;2、分类时计算量非常小,速度很快,存储资源低;
缺点:1、容易欠拟合,一般准确度不太高;2、只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;
K近邻算法(KNN):
KNN算法的优点:1. 思想简单,理论成熟,既可以用来做分类也可以用来做回归;2. 可用于非线性分类;3. 训练时间复杂度为O(n);4. 准确度高,对数据没有假设,对outlier不敏感
缺点:1. 计算量大;2. 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少);3. 需要大量的内存;
支持向量机(SVM):
SVM算法优点:可用于线性/非线性分类,也可以用于回归;低泛化误差;容易解释;计算复杂度较低
缺点:对参数和核函数的选择比较敏感;原始的SVM只比较擅长处理二分类问题(后来我们可以多训练一些分类器来解决这个问题)
Boosting
优点:容易实现,分类准确率较高,没有太多参数可以调;不会过拟合
缺点:对异常值(outlier)比较敏感;