经典算法研究:模式匹配(子串匹配)之 KMP 算法(C语言实现版)

最近研究KMP算法,参考了很多网上的资料,感觉它们写的都比较乱,包括csdn博客名人v_july_v。这些资料有个通病,那就是写的东西都比较多,比较杂乱,但是很难使人深入的去理解。其实对一个经典算法的理解,就在那么关键的几步,写一堆东西上去,反而不利于读者对于算法本质的理解。下面写了一些我对KMP算法的理解,并用C语言实现了出来,希望大家多多指教。

传统的字符串比较算法很简单,拿一个主串s和一个子串t相比较,如果s中包含t,就返回t在s中的索引,否则返回t。 下面是传统的字符串比较算法的源代码,再下面给出一个测试示例。

 

//传统的字符串子串匹配算法

#include <stdio.h>

#include <string.h>

 

char s[51],t[11];

int next[11];

 

int index(char *s,char *t,int pos)

{

 int i = pos;

 int j = 0;

 int len1 = strlen(s);

 int len2 = strlen(t);

 while(i<len1&&j<len2)

 {

  if(s[i]==t[j])                    //如果对应位置的字符相等,就继续比较下面的字符

 

 {

   i++;

   j++;

  }

  else                            //否则,主串和子串的指针都要回溯

  {

   i=i-j+1;

   j=0;

  }

 }

 if(j>=len2)

  return i-len2;

 

else

 

return -1;

}

 

int main()

{

 int pos;

 gets(s);

 gets(t);

 scanf(“%d”,&pos);

 

 int no = index(s,t,pos);

 if(no>0)

  printf(“String s contains a substring t~~~\n”);

 else

  printf(“String s doesn’t contain a substring t~~~\n”);

 return 0;

}

上面子串匹配的时间复杂度是O((len1-len2+1)*len2),在对较长的字符串进行匹配时这样低的时间效率是不能容忍的,为此需要对其进行改进。

 

//改进后的字符串比较算法

//下面函数中的next数组体现的是子串本身的特性,与主串没有关系,因此对于确定的子串,其next数组中的值是相同的

 

#include <stdio.h>

#include <string.h>

 

char s[51],t[11];

int next[11];

 

void get_next(char* t,int next[])

{

 int i = 1;

 int j = 0;

 next[0] = -1;

 while(i<strlen(t))

 {

  if(j==-1||t[i]==t[j])

  {

   i++;

   j++;

   next[i] = j;

  }

  else

  {

   j = next[j];

  }

 }

}

 

int index(char *s,char *t,int pos)

{

 int i = pos;

 int j = 0;

 int len1 = strlen(s);

 int len2 = strlen(t);

 while(i<len1&&j<len2)

 {

  if(j==-1||s[i]==t[j])//第一个字符都不匹配或者字符相等的情况

  {

   i++;

   j++;

  }

  else           //i指针不回溯,j指针回溯

  {

   j=next[j];    //这行代码表示,本来子串和主串是顺次进行比较的,当发现相比较的两个字符不相同时,得回溯指针j来得到一个新的标号,用这个新的标号对应的字符

  }              //与主串原本的标号i对应的字符进行比较,具体回溯到哪一个位置由子串本身的特性来决定,以next数组值的形式体现出来

 }

 if(j>=len2)

  return i-len2;

 else

  return -1;

}

 

int main()

{

 int pos;

 gets(s);

 gets(t);

 scanf(“%d”,&pos);

 get_next(t,next);

 int no = index(s,t,pos);

 if(no>0)

  printf(“String s contains a substring t~~~\n”);

 else

  printf(“String s doesn’t contain a substring t~~~\n”);

 return 0;

}

 

上面的算法能将子串匹配时间复杂降到O(len1+len2)的级别,但是其仍然有一定的问题,比如主串是aaabaaabaaabaaaab,而子串是aaaab的情况,照样会进行很多无用的匹配。为此,特地改进如下:

//再次改进后的字符串比较算法

 

#include <stdio.h>

#include <string.h>

 

char s[51],t[11];

int next[11];

 

void get_nextval(char* t,int next[])

{

 int i = 1;

 int j = 0;

 next[0] = -1;

 while(i<strlen(t))

 {

  if(j==-1||t[i]==t[j])

  {

   i++;

   j++;

   if(t[i]!=t[j])   //只有前后两个字符不相同时才会按前面的算法来计算next, 即next[i] = j

    next[i] = j;

   else

    next[i] = next[j];        //当前后两个字符相同时,进行向前找,能够减少比较的次数

  }

  else

  {

   j = next[j];

  }

 }

}

 

int index(char *s,char *t,int pos)

{

 int i = pos;

 int j = 0;

 int len1 = strlen(s);

 int len2 = strlen(t);

 while(i<len1&&j<len2)

 {

  if(j==-1||s[i]==t[j])//第一个字符都不匹配或者字符相等的情况

  {

   i++;

   j++;

  }

  else   //i指针不回溯,j指针

  {

   //i=i-j+1;

   j=next[j];

  }

 }

 if(j>=len2)

  return i-len2;

 else

  return -1;

}

 

int main()

{

 int pos;

 gets(s);

 gets(t);

 scanf(“%d”,&pos);

 get_nextval(t,next);

 int no = index(s,t,pos);

 if(no>0)

  printf(“String s contains a substring t~~~\n”);

 else

  printf(“String s doesn’t contain a substring t~~~\n”);

 return 0;

}

 

理解KMP算法中求next值函数的关键是要认识到,求next值的过程本身就是一个子串自己匹配自身的过程。

而理解KMP算法的关键是两条语句:

语句一:next[i] = j; 这条语句是说,在顺次比较中,主串已经比较到了第i-1个字符,子串已经比较到了第j-1个字符,而前面的这j-1个字符都是相等的,下面比较主串种的第i个字符与子串中的第j个字符,当它们不相等时,i指针不用回溯,j指针需要回溯,j指针回溯的位置即为next[j]。总之,用一句话概括来说就是,当子串匹配到第i个字符和主串不相等时,主串不用回溯,子串需要回溯到j的位置。

语句二:j=next[j];这条语句是子串回溯时跳转的动作。子串从位置j回溯到位置next[j]。

 

点赞