经典算法研究：模式匹配（子串匹配）之 KMP 算法（C语言实现版）

2023年5月21日 360次阅读来源: KMP算法

最近研究KMP算法，参考了很多网上的资料，感觉它们写的都比较乱，包括csdn博客名人v_july_v。这些资料有个通病，那就是写的东西都比较多，比较杂乱，但是很难使人深入的去理解。其实对一个经典算法的理解，就在那么关键的几步，写一堆东西上去，反而不利于读者对于算法本质的理解。下面写了一些我对KMP算法的理解，并用C语言实现了出来，希望大家多多指教。

传统的字符串比较算法很简单，拿一个主串s和一个子串t相比较，如果s中包含t，就返回t在s中的索引，否则返回t。下面是传统的字符串比较算法的源代码，再下面给出一个测试示例。

//传统的字符串子串匹配算法

#include <stdio.h>

#include <string.h>

char s[51],t[11];

int next[11];

int index(char *s,char *t,int pos)

{

int i = pos;

int j = 0;

int len1 = strlen(s);

int len2 = strlen(t);

while(i<len1&&j<len2)

{

if(s[i]==t[j]) //如果对应位置的字符相等，就继续比较下面的字符

{

i++;

j++;

}

else //否则，主串和子串的指针都要回溯

{

i=i-j+1;

j=0;

}

if(j>=len2)

return i-len2;

else

return -1;

}

int main()

{

int pos;

gets(s);

gets(t);

scanf(“%d”,&pos);

int no = index(s,t,pos);

if(no>0)

printf(“String s contains a substring t~~~\n”);

else

printf(“String s doesn’t contain a substring t~~~\n”);

return 0;

}

上面子串匹配的时间复杂度是O（（len1-len2+1)*len2)，在对较长的字符串进行匹配时这样低的时间效率是不能容忍的，为此需要对其进行改进。

//改进后的字符串比较算法

//下面函数中的next数组体现的是子串本身的特性，与主串没有关系，因此对于确定的子串，其next数组中的值是相同的

#include <stdio.h>

#include <string.h>

char s[51],t[11];

int next[11];

void get_next(char* t,int next[])

{

int i = 1;

int j = 0;

next[0] = -1;

while(i<strlen(t))

{

if(j==-1||t[i]==t[j])

{

i++;

j++;

next[i] = j;

}

else

{

j = next[j];

}

int index(char *s,char *t,int pos)

{

int i = pos;

int j = 0;

int len1 = strlen(s);

int len2 = strlen(t);

while(i<len1&&j<len2)

{

if(j==-1||s[i]==t[j])//第一个字符都不匹配或者字符相等的情况

{

i++;

j++;

}

else //i指针不回溯,j指针回溯

{

j=next[j]; //这行代码表示，本来子串和主串是顺次进行比较的，当发现相比较的两个字符不相同时，得回溯指针j来得到一个新的标号，用这个新的标号对应的字符

} //与主串原本的标号i对应的字符进行比较，具体回溯到哪一个位置由子串本身的特性来决定，以next数组值的形式体现出来

}

if(j>=len2)

return i-len2;

else

return -1;

}

int main()

{

int pos;

gets(s);

gets(t);

scanf(“%d”,&pos);

get_next(t,next);

int no = index(s,t,pos);

if(no>0)

printf(“String s contains a substring t~~~\n”);

else

printf(“String s doesn’t contain a substring t~~~\n”);

return 0;

}

上面的算法能将子串匹配时间复杂降到O(len1+len2)的级别，但是其仍然有一定的问题，比如主串是aaabaaabaaabaaaab，而子串是aaaab的情况，照样会进行很多无用的匹配。为此，特地改进如下：

//再次改进后的字符串比较算法

#include <stdio.h>

#include <string.h>

char s[51],t[11];

int next[11];

void get_nextval(char* t,int next[])

{

int i = 1;

int j = 0;

next[0] = -1;

while(i<strlen(t))

{

if(j==-1||t[i]==t[j])

{

i++;

j++;

if(t[i]!=t[j]) //只有前后两个字符不相同时才会按前面的算法来计算next，即next[i] = j

next[i] = j;

else

next[i] = next[j]; //当前后两个字符相同时，进行向前找，能够减少比较的次数

}

else

{

j = next[j];

}

int index(char *s,char *t,int pos)

{

int i = pos;

int j = 0;

int len1 = strlen(s);

int len2 = strlen(t);

while(i<len1&&j<len2)

{

if(j==-1||s[i]==t[j])//第一个字符都不匹配或者字符相等的情况

{

i++;

j++;

}

else //i指针不回溯,j指针

{

//i=i-j+1;

j=next[j];

}

if(j>=len2)

return i-len2;

else

return -1;

}

int main()

{

int pos;

gets(s);

gets(t);

scanf(“%d”,&pos);

get_nextval(t,next);

int no = index(s,t,pos);

if(no>0)

printf(“String s contains a substring t~~~\n”);

else

printf(“String s doesn’t contain a substring t~~~\n”);

return 0;

}

理解KMP算法中求next值函数的关键是要认识到，求next值的过程本身就是一个子串自己匹配自身的过程。

而理解KMP算法的关键是两条语句：

语句一：next[i] = j；这条语句是说，在顺次比较中，主串已经比较到了第i-1个字符，子串已经比较到了第j-1个字符，而前面的这j-1个字符都是相等的，下面比较主串种的第i个字符与子串中的第j个字符，当它们不相等时，i指针不用回溯，j指针需要回溯，j指针回溯的位置即为next[j]。总之，用一句话概括来说就是，当子串匹配到第i个字符和主串不相等时，主串不用回溯，子串需要回溯到j的位置。

语句二：j=next[j]；这条语句是子串回溯时跳转的动作。子串从位置j回溯到位置next[j]。

    原文作者：KMP算法
    原文地址: https://blog.csdn.net/daringpig/article/details/7634872
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。