机器学习笔记(3)-sklearn支持向量机SVM

2023年2月19日 264次阅读来源: Spytensor

文章用于总结对sklearn支持向量机模块的使用，系统回顾作者近期的相关学习，部分内容来源网站(侵权联系必删)。

第一部分 SVM用途及优缺点

1. 主要用途：

classification(分类)、regression(回归)、outliers detection(异常检测)

2. 优缺点：

支持向量机的优势在于:

在高维空间中非常高效.
即使在数据维度比样本数量大的情况下仍然有效.
在决策函数（称为支持向量）中使用训练集的子集,因此它也是高效利用内存的.
通用性: 不同的核函数与特定的决策函数一一对应.常见的内核已经提供,也可以指定定制的内核.

支持向量机的缺点包括:

如果特征数量比样本数量大得多,在选择核函数时要避免过拟合,而且正则化项是非常重要的.
支持向量机不直接提供概率估计,这些都是使用昂贵的五次交叉验算计算的.

3. 原理及公式推导

由于知乎及CSDN中关于SVM的介绍太多，此处不再累赘，附上一篇作者看到的相对比较详细的文章 SVM

第二部分 SVM 针对不同问题的具体用法

（一）. 分类问题

sklearn提供了三种基于svm的分类方法：

sklearn.svm.NuSVC()
sklearn.svm.LinearSVC()
sklearn.svm.SVC()

1. sklearn.svm.SVC()

全称是C-Support Vector Classification，是一种基于libsvm的支持向量机，由于其时间复杂度为O(n^2)，所以当样本数量超过两万时难以实现。

官方源码：

sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, 
                probability=False, tol=0.001, cache_size=200, class_weight=None, 
                verbose=False, max_iter=-1, decision_function_shape='ovr', 
                random_state=None)

相关参数：

C （float参数默认值为1.0）
表示错误项的惩罚系数C越大，即对分错样本的惩罚程度越大，因此在训练样本中准确率越高，但是泛化能力降低；相反，减小C的话，容许训练样本中有一些误分类错误样本，泛化能力强。对于训练样本带有噪声的情况，一般采用后者，把训练样本集中错误分类的样本作为噪声。
kernel （str参数默认为‘rbf’）
该参数用于选择模型所使用的核函数，算法中常用的核函数有：
— linear：线性核函数
— poly：多项式核函数
–rbf：径像核函数/高斯核
–sigmod：sigmod核函数
–precomputed：核矩阵，该矩阵表示自己事先计算好的，输入后算法内部将使用你提供的矩阵进行计算
degree （int型参数默认为3）
该参数只对’kernel=poly'(多项式核函数)有用，是指多项式核函数的阶数n，如果给的核函数参数是其他核函数，则会自动忽略该参数。
gamma （float参数默认为auto）
该参数为核函数系数，只对‘rbf’,‘poly’,‘sigmod’有效。如果gamma设置为auto，代表其值为样本特征数的倒数，即1/n_features，也有其他值可设定。
coef0:（float参数默认为0.0）
该参数表示核函数中的独立项，只有对‘poly’和‘sigmod’核函数有用，是指其中的参数c。
probability（ bool参数默认为False）
该参数表示是否启用概率估计。这必须在调用fit()之前启用，并且会使fit()方法速度变慢。
shrinkintol: float参数默认为1e^-3g（bool参数默认为True）
该参数表示是否选用启发式收缩方式。
tol（ float参数默认为1e^-3）
svm停止训练的误差精度，也即阈值。
cache_size（float参数默认为200）
该参数表示指定训练所需要的内存，以MB为单位，默认为200MB。
class_weight（字典类型或者‘balance’字符串。默认为None）
该参数表示给每个类别分别设置不同的惩罚参数C，如果没有给，则会给所有类别都给C=1，即前面参数指出的参数C。如果给定参数‘balance’，则使用y的值自动调整与输入数据中的类频率成反比的权重。
verbose （ bool参数默认为False）
该参数表示是否启用详细输出。此设置利用libsvm中的每个进程运行时设置，如果启用，可能无法在多线程上下文中正常工作。一般情况都设为False，不用管它。
max_iter （int参数默认为-1）
该参数表示最大迭代次数，如果设置为-1则表示不受限制。
random_state（int，RandomState instance ，None 默认为None）
该参数表示在混洗数据时所使用的伪随机数发生器的种子，如果选int，则为随机数生成器种子；如果选RandomState instance，则为随机数生成器；如果选None,则随机数生成器使用的是np.random。

方法

svc.decision_function(X)
样本X到分离超平面的距离
svc.fit(X, y[, sample_weight])
根据给定的训练数据拟合SVM模型。
svc.get_params([deep])
获取此估算器的参数并以字典行书储存,默认deep=True，以分类iris数据集为例，得到的参数如下

{'C': 1.0, 'cache_size': 200, 'class_weight': None, 'coef0': 0.0,
'decision_function_shape': 'ovr', 'degree': 3, 'gamma': 'auto', 'kernel': 'rbf', 
'max_iter': -1, 'probability': False, 'random_state': None, 'shrinking': True, 
'tol': 0.001, 'verbose': False}

svc.predict(X)
根据测试数据集进行预测
svc.score(X, y[, sample_weight])
返回给定测试数据和标签的平均精确度
svc.predict_log_proba(X_test)，svc.predict_proba(X_test)
当sklearn.svm.SVC(probability=True)时，才会有这两个值，分别得到样本的对数概率以及普通概率。

应用实例（以iris分类为例）

官方示例

>>> import numpy as np
>>> X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
>>> y = np.array([1, 1, 2, 2])
>>> from sklearn.svm import SVC
>>> clf = SVC()
>>> clf.fit(X, y) 
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False) #可以根据前面介绍的参数，做出相应改变观察结果变化
>>> print(clf.predict([[-0.8, -1]]))
[1]

iris数据集的分类(目前没整一些其他的数据集，后期会更新下)

from sklearn import svm
from sklearn import datasets
from sklearn.model_selection import train_test_split as ts

#import our data
iris = datasets.load_iris()
X = iris.data
y = iris.target

#split the data to  7:3
X_train,X_test,y_train,y_test = ts(X,y,test_size=0.3)

# select different type of kernel function and compare the score

# kernel = 'rbf'
clf_rbf = svm.SVC(kernel='rbf')
clf_rbf.fit(X_train,y_train)
score_rbf = clf_rbf.score(X_test,y_test)
print("The score of rbf is : %f"%score_rbf)

# kernel = 'linear'
clf_linear = svm.SVC(kernel='linear')
clf_linear.fit(X_train,y_train)
score_linear = clf_linear.score(X_test,y_test)
print("The score of linear is : %f"%score_linear)

# kernel = 'poly'
clf_poly = svm.SVC(kernel='poly')
clf_poly.fit(X_train,y_train)
score_poly = clf_poly.score(X_test,y_test)
print("The score of poly is : %f"%score_poly)

Results:
The score of rbf is : 0.955556
The score of linear is : 0.977778
The score of poly is : 0.911111

附上一个官方文档中进行手写数字识别的示例Examples
至此，svm的一些基本信息以及svc分类器的介绍已经完成，后续补上基于svc的更多实例。
下一篇将介绍SVM的另一个分类器–NuSVC

    原文作者：Spytensor
    原文地址: https://www.jianshu.com/p/a9f9954355b3
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。