《统计学习方法》的Python实现：（1）感知机

2019年4月21日 248次阅读来源: KingLeo

0. 假装有一个前言

前几天看到有人转李航老师的《统计学习方法》python 3.6实现，突然发现书我是看了一半了，代码却只写过第三章的 $《《统计学习方法》的Python实现：（1）感知机》$ 近邻法。（不要问我为什么现在才看了一半，也不要问我为什么不一边看一边写）

1. 感知机原理

《《统计学习方法》的Python实现：（1）感知机》赶只鸡（划掉）

感知机（Perceptron）是二分类的线性分类模型，只适用于线性可分的二分类问题。

《《统计学习方法》的Python实现：（1）感知机》线性二分类问题

输入	输出	模型类型	参数意义
特征向量	类别（ $《《统计学习方法》的Python实现：（1）感知机》$ ）	判别模型	超平面参数

感知机的损失函数为所有误分类点到分类超平面的距离之和，因此算法是误分类驱动的，正确分类的点不会对算法的结果做出贡献。

2. 感知机学习算法的两种形式

2.1 原始形式

使用随机梯度下降法，针对每个误分类使其梯度下降。

算法2.1_感知机学习算法的原始形式
输入：训练数据集 $《《统计学习方法》的Python实现：（1）感知机》$ ；学习率 $《《统计学习方法》的Python实现：（1）感知机》$ ；
输出： $《《统计学习方法》的Python实现：（1）感知机》$ ；感知机模型 $《《统计学习方法》的Python实现：（1）感知机》$ .
1 选取初值 $《《统计学习方法》的Python实现：（1）感知机》$
2 在训练集中选取数据 $《《统计学习方法》的Python实现：（1）感知机》$
3 如果 $《《统计学习方法》的Python实现：（1）感知机》$
$《《统计学习方法》的Python实现：（1）感知机》$
4 如果训练集中存在误分类点，转至 2；否则，结束

def trainOri(self,yita = 0.1):
        self.w = self.w0
        self.b = self.b0
        misDivision = True
        self.yita = yita
        self.k = 0
        while misDivision:
            for it in range(len(self.data)):
                if self.label[it] * (np.dot(self.w, self.data[it]) + self.b) <= 0:
                    self.w += self.yita * self.label[it] * self.data[it]
                    self.b += self.yita * self.label[it]
                    self.k += 1
                    break
                if it == len(self.data) - 1:
                    misDivision = False

原始形式这里没有问题，对1000个2维数据进行分类使用了 $《《统计学习方法》的Python实现：（1）感知机》$ ，更新次数为 $《《统计学习方法》的Python实现：（1）感知机》$ 次

《《统计学习方法》的Python实现：（1）感知机》 PerceptronOri

2.2 对偶形式

使用随机梯度下降法，针对每个误分类使其梯度下降。

算法2.2_感知机学习算法的对偶形式
输入：训练数据集 $《《统计学习方法》的Python实现：（1）感知机》$ ；学习率 $《《统计学习方法》的Python实现：（1）感知机》$ ；
输出： $《《统计学习方法》的Python实现：（1）感知机》$ ；感知机模型 $《《统计学习方法》的Python实现：（1）感知机》$ .
1 选取初值 $《《统计学习方法》的Python实现：（1）感知机》$
2 在训练集中选取数据 $《《统计学习方法》的Python实现：（1）感知机》$
3 如果 $《《统计学习方法》的Python实现：（1）感知机》$
$《《统计学习方法》的Python实现：（1）感知机》$
4 如果训练集中存在误分类点，转至 2；否则，结束

def trainDual(self, yita = 1):
        self.alpha = self.alpha0
        self.beta = self.beta0
        gram = []
        for it in self.data:
            temp = []
            for ot in self.data:
                temp.append(np.dot(it,ot))
            gram.append(temp)        
        misDivision = True
        self.yita = yita
        self.k = 0
        self.kk = 0
        while misDivision:
            for it in range(len(self.data)):
                temp = 0
                self.kk +=1
                if self.label[it] * (sum([self.alpha[i] * self.label[i] * gram[i][it] for i in range(len(self.data))]) + self.beta) <= 0:
                    self.alpha[it] += self.yita
                    self.beta += self.yita * self.label[it]
                    self.k += 1
                    break
                if it == len(self.data) - 1:
                    misDivision = False

对偶形式这里问题就大了，等了一分钟还以为是条件给错进入死循环了，反复检查确认没有问题，心想，跑去吧（其实去刷知乎了）。于是就有了下面这张图：

《《统计学习方法》的Python实现：（1）感知机》 PerceptrDual

等一下，说好的使用Gram矩阵可以降低运算量呢？同样更新了七千多次为什么你跑了三分钟啊？！差了2000倍有木有啊！

《《统计学习方法》的Python实现：（1）感知机》 emm

2.3 问题分析

1) 从编程角度分析

冷静分析一下，Gram矩阵计算时间只需 $《《统计学习方法》的Python实现：（1）感知机》$ 基本可以忽略不记，由于刚刚只统计了参数更新次数，我们重新统计一下两种算法第三步的判别步骤：

《《统计学习方法》的Python实现：（1）感知机》判别步骤

原始算法判别 $《《统计学习方法》的Python实现：（1）感知机》$ 次，更新参数 $《《统计学习方法》的Python实现：（1）感知机》$ 次，耗时 $《《统计学习方法》的Python实现：（1）感知机》$
对偶算法判别 $《《统计学习方法》的Python实现：（1）感知机》$ 次，更新参数 $《《统计学习方法》的Python实现：（1）感知机》$ 次，耗时 $《《统计学习方法》的Python实现：（1）感知机》$

由算法2.1，2.2可知，参数更新基本不消耗时间，也即大部分时间用于判别步骤。原始算法平均耗时 $《《统计学习方法》的Python实现：（1）感知机》$ ，对偶算法平均耗时 $《《统计学习方法》的Python实现：（1）感知机》$ 。这中间也就差了，额，1931倍吧。
继续冷静分析，算法2.2中第三步计算量大的主要原因是有一个求积再求和的过程，这个过程也可以当作向量内积来计算，这样就实现了在一次参数更新前只计算一次 $《《统计学习方法》的Python实现：（1）感知机》$ 。这个部分书中没有提及，可能因为不属于算法而是计算方法的一部分吧。

更新对偶算法如下：

    def trainDual(self, yita = 1):
        self.alpha = self.alpha0
        self.beta = self.beta0
        gram = []
        for it in self.data:
            temp = []
            for ot in self.data:
                temp.append(np.dot(it,ot))
            gram.append(temp)
        gramA = np.array(gram)
        misDivision = True
        self.yita = yita
        self.k = 0
        self.kk = 0
        while misDivision:
            ay = np.array([self.alpha[x] * self.label[x] for x in range(len(self.alpha))])
            for it in range(len(self.data)):
                temp = 0
                self.kk +=1
                if self.label[it] * (np.dot(ay, gramA[it]) + self.beta) <= 0:
                    self.alpha[it] += self.yita
                    self.beta += self.yita * self.label[it]
                    self.k += 1
                    break
                if it == len(self.data) - 1:
                    misDivision = False

同样，我们使用1000个2维数据进行测试，结果如下：

《《统计学习方法》的Python实现：（1）感知机》更新对偶算法之后