浅析自助算法

   今天晚上用matlab实现了自助算法,虽然过程有些曲折,但是最终还是实现了,下面先贴出源码,然后再一一做解释。

   源码如下:

   clear all;

   close all;

   data = csvread(‘watermelon4.0.csv’);

   [m,n]= size(data);

   middleVector = 1:m;

   Sindex = randi([1,m],1,m)

   notInT = unique(Sindex);

   Tindex = setdiff(middleVector,notInT);

   S = data(Sindex,:);

   T = data(Tindex);

    首先,了解一下自助算法的原理。假设样本有M条数据,定义为D,训练数据为S,随机从D中取M次数据,并保存,测试数据T,是所有不包含S数据的D。

   其次,我们分析一下开篇贴出的源码clear all,close all是将之前的数据清除,以保证数据的正确性;data = csvread(‘watermelon4.0.csv’);是获取初始数据;[m,n] = size(data);是获取初始数据的行数和列数;sum = 1:m;生成一个1行m列的向量;Sindex=randi([1,m],1,m);随机生成m行的矩阵的索引,即训练数据的矩阵S的索引;notInT=unique(Sindex);对训练数据索引去重;Tindex=setdiff(middleVector,notInt);由setdiff函数求得不包含S数据的D的测试数据索引。最后两句是根据索引给S,T赋值。

点赞