【实现】利用罗杰斯特回归预测疝气病马死亡率

2019年5月11日 204次阅读来源: 七八音

利用Logistics Regression罗杰斯特回归预测疝气病马死亡率。

1. 收集数据

收集的数据划分成训练集和测试集，每个样例包括21个特征和1个类别标签。

《【实现】利用罗杰斯特回归预测疝气病马死亡率》数据格式

2. 准备数据

要求数据类型为：数值型；另外，结构化数据格式最佳。

用Python解析文本文件并填充缺失值。

缺失值的填充方式：

–使用可用特征的均值来填补；

–使用特殊值来填补，如-1；

–忽略有缺失值的样本；

–使用相似样本的均值填补缺失值；

–使用另外的机器学习算法预测缺失值；

不同的处理方式之间各有优劣，同时，具体问题需要具体分析，没有普适的处理方法。

3. 分析数据

可视化并观察数据。

4. 训练算法

使用优化算法，找到最佳的系数。

数据样本之间服从罗杰斯特分布。分布函数为：

《【实现】利用罗杰斯特回归预测疝气病马死亡率》分布函数

函数定义：

def sigmod(x):
return 1/(1+exp(-x))

Sigmod函数：

《【实现】利用罗杰斯特回归预测疝气病马死亡率》

优化算法，主要是梯度算法（下降or上升）。

A. 梯度上升算法

设定循环迭代次数，权重系数的每次更新是通过计算所有样本得出来的。当训练集过于庞大时，不利于计算。

alpha：步长，又称为学习率。

def gradAscent(dataMatIn, classLabels):
dataMat= mat(dataMatIn)
labelMat= mat(classLabels).transpose()
m, n= shape(dataMat)
alpha= 0.001
maxCycles= 500
weights= ones((n,1))
for k in range(maxCycles):
h= sigmod(dataMat*weights)
error= (labelMat- h)
weights= weights+ alpha*dataMat.transpose()*error#省去了数学推导式
return weights

B. 随机梯度上升

对梯度上升算法进行改进。权重系数的每次更新通过训练集的每个记录计算得到。

可以在新样本到来时对分类器进行增量式更新，因而，随机梯度上升算法是一个在线学习算法。

这种参数更新算法：容易受到噪声点的影响。在大的波动停止后，还有一些小的周期性波动。

def stocGradAscent0(dataMat,classLabels):
m, n=shape(dataMat)
alpha= 0.01
weights= ones(n)
for i in range(m):
h= sigmod(sum(dataMat[i]*weights))
error= classLabels[i] – h
weights= weights+ alpha*error*dataMat[i]
return weights

C. 改进的随机梯度上升算法

学习率：变化。随着迭代次数的增多，逐渐变下。

权重系数更新：设定迭代次数，每次更新选择的样例是随机的（不是依次选的）。

def stocGradAscent1(dataMat, classLabels, numIter=150):
m,n= shape(dataMat)
weights= ones(n)
for jin range(numIter):#迭代次数
dataIndex= range(m)
for i in range(m):#依据训练集更新权重系数
alpha= 4/(1.0+j+i) + 0.1
randIndex= int(random.uniform(0,len(dataIndex)))#确保随机性
h= sigmod(sum(dataMat[randIndex]*weights))
error= classLabels[randIndex] – h
weights= weights+ alpha*error*dataMat[randIndex]
del dataIndex[randIndex]
return weights

分类算法

def classifyVector(inX, weights):
prob= sigmod(sum(inX*weights))
if prob> 0.5:
return 1.0
else:
return 0.0

5. 测试算法

为了量化回归效果，使用错误率作为观察指标。根据错误率决定是否回退到训练阶段，通过改变迭代次数和步骤等参数来得到更好的回归系数。

def colicTest():
frTrain= open(‘horseColicTraining.txt’)
frTest= open(‘horseColicTest.txt’)
trainSet= []; trainLabels= []
for line in frTrain.readlines():
line= line.strip().split(‘\t’)
lineArr= []
for i in range(21):
lineArr.append(float(line[i]))
trainSet.append(lineArr)
trainLabels.append(float(line[21]))
trainWeights= stocGradAscent1(array(trainSet),trainLabels)
errorCnt= 0; numTestVec= 0.0
for line in frTest.readlines():
numTestVec+= 1
currLine= line.strip().split(‘\t’)
lineArr= []
for i in range(21):
lineArr.append(float(currLine[i]))
if int(classifyVector(array(lineArr),trainWeights)) != int(currLine[21]):
errorCnt+= 1
errorRate= float(errorCnt)/numTestVec
print (“the error rate of this test is: %f” % errorRate)
return errorRate

通过多次测试，取平均，作为该分类器错误率：

def multiTest():
numTests= 10; errorSum= 0.0
for k in range(numTests):
errorSum+= colicTest()
print (“after %d iterations the average error rate is: %f” %(numTests,float(errorSum)/numTests))

运行结果：

《【实现】利用罗杰斯特回归预测疝气病马死亡率》

错误率为36.1%。

6. 小结

优点：计算代价不高，易于理解和实现；

缺点：容易欠拟合，分类进度可能不高；

使用数据类型：数值型和标称型数据。

下一章：准备把罗杰斯特回归设计的梯度上升算法的数学推导，梳理一下并证明。

To Be Continued!

《【实现】利用罗杰斯特回归预测疝气病马死亡率》祈年殿

    原文作者：七八音
    原文地址: https://www.jianshu.com/p/9935d1ed7c06#comments
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。