最近研究KMP算法,参考了很多网上的资料,感觉它们写的都比较乱,包括csdn博客名人v_july_v。这些资料有个通病,那就是写的东西都比较多,比较杂乱,但是很难使人深入的去理解。其实对一个经典算法的理解,就在那么关键的几步,写一堆东西上去,反而不利于读者对于算法本质的理解。下面写了一些我对KMP算法的理解,并用C语言实现了出来,希望大家多多指教。
传统的字符串比较算法很简单,拿一个主串s和一个子串t相比较,如果s中包含t,就返回t在s中的索引,否则返回t。 下面是传统的字符串比较算法的源代码,再下面给出一个测试示例。
//传统的字符串子串匹配算法
#include <stdio.h>
#include <string.h>
char s[51],t[11];
int next[11];
int index(char *s,char *t,int pos)
{
int i = pos;
int j = 0;
int len1 = strlen(s);
int len2 = strlen(t);
while(i<len1&&j<len2)
{
if(s[i]==t[j]) //如果对应位置的字符相等,就继续比较下面的字符
{
i++;
j++;
}
else //否则,主串和子串的指针都要回溯
{
i=i-j+1;
j=0;
}
}
if(j>=len2)
return i-len2;
else
return -1;
}
int main()
{
int pos;
gets(s);
gets(t);
scanf(“%d”,&pos);
int no = index(s,t,pos);
if(no>0)
printf(“String s contains a substring t~~~\n”);
else
printf(“String s doesn’t contain a substring t~~~\n”);
return 0;
}
上面子串匹配的时间复杂度是O((len1-len2+1)*len2),在对较长的字符串进行匹配时这样低的时间效率是不能容忍的,为此需要对其进行改进。
//改进后的字符串比较算法
//下面函数中的next数组体现的是子串本身的特性,与主串没有关系,因此对于确定的子串,其next数组中的值是相同的
#include <stdio.h>
#include <string.h>
char s[51],t[11];
int next[11];
void get_next(char* t,int next[])
{
int i = 1;
int j = 0;
next[0] = -1;
while(i<strlen(t))
{
if(j==-1||t[i]==t[j])
{
i++;
j++;
next[i] = j;
}
else
{
j = next[j];
}
}
}
int index(char *s,char *t,int pos)
{
int i = pos;
int j = 0;
int len1 = strlen(s);
int len2 = strlen(t);
while(i<len1&&j<len2)
{
if(j==-1||s[i]==t[j])//第一个字符都不匹配或者字符相等的情况
{
i++;
j++;
}
else //i指针不回溯,j指针回溯
{
j=next[j]; //这行代码表示,本来子串和主串是顺次进行比较的,当发现相比较的两个字符不相同时,得回溯指针j来得到一个新的标号,用这个新的标号对应的字符
} //与主串原本的标号i对应的字符进行比较,具体回溯到哪一个位置由子串本身的特性来决定,以next数组值的形式体现出来
}
if(j>=len2)
return i-len2;
else
return -1;
}
int main()
{
int pos;
gets(s);
gets(t);
scanf(“%d”,&pos);
get_next(t,next);
int no = index(s,t,pos);
if(no>0)
printf(“String s contains a substring t~~~\n”);
else
printf(“String s doesn’t contain a substring t~~~\n”);
return 0;
}
上面的算法能将子串匹配时间复杂降到O(len1+len2)的级别,但是其仍然有一定的问题,比如主串是aaabaaabaaabaaaab,而子串是aaaab的情况,照样会进行很多无用的匹配。为此,特地改进如下:
//再次改进后的字符串比较算法
#include <stdio.h>
#include <string.h>
char s[51],t[11];
int next[11];
void get_nextval(char* t,int next[])
{
int i = 1;
int j = 0;
next[0] = -1;
while(i<strlen(t))
{
if(j==-1||t[i]==t[j])
{
i++;
j++;
if(t[i]!=t[j]) //只有前后两个字符不相同时才会按前面的算法来计算next, 即next[i] = j
next[i] = j;
else
next[i] = next[j]; //当前后两个字符相同时,进行向前找,能够减少比较的次数
}
else
{
j = next[j];
}
}
}
int index(char *s,char *t,int pos)
{
int i = pos;
int j = 0;
int len1 = strlen(s);
int len2 = strlen(t);
while(i<len1&&j<len2)
{
if(j==-1||s[i]==t[j])//第一个字符都不匹配或者字符相等的情况
{
i++;
j++;
}
else //i指针不回溯,j指针
{
//i=i-j+1;
j=next[j];
}
}
if(j>=len2)
return i-len2;
else
return -1;
}
int main()
{
int pos;
gets(s);
gets(t);
scanf(“%d”,&pos);
get_nextval(t,next);
int no = index(s,t,pos);
if(no>0)
printf(“String s contains a substring t~~~\n”);
else
printf(“String s doesn’t contain a substring t~~~\n”);
return 0;
}
理解KMP算法中求next值函数的关键是要认识到,求next值的过程本身就是一个子串自己匹配自身的过程。
而理解KMP算法的关键是两条语句:
语句一:next[i] = j; 这条语句是说,在顺次比较中,主串已经比较到了第i-1个字符,子串已经比较到了第j-1个字符,而前面的这j-1个字符都是相等的,下面比较主串种的第i个字符与子串中的第j个字符,当它们不相等时,i指针不用回溯,j指针需要回溯,j指针回溯的位置即为next[j]。总之,用一句话概括来说就是,当子串匹配到第i个字符和主串不相等时,主串不用回溯,子串需要回溯到j的位置。
语句二:j=next[j];这条语句是子串回溯时跳转的动作。子串从位置j回溯到位置next[j]。