字符串--最重要的基本匹配算法KMP

话不多说 ,先上一个板子,通过练习来体会下算法:

#include<bits/stdc++.h>
using namespace std;
int next_[1005],len1,len2;
char str[1005],sub_str[1005];
void kmp(){
	int k = -1,i = 0;
	next_[0] = -1;
	while(i<len2){
		if(k == -1 || sub_str[i] == sub_str[k]){
			next_[++i] = ++k;
		}else
			k = next_[k];
	}	
}
int main(){
	while(cin>>str>>sub_str){
		len1 = strlen(str);
		len2 = strlen(sub_str);
		kmp();
		for(int i = 0;i<len2;i++) cout<<sub_str[i]<<"  ";
		cout<<endl; 
		for(int i = 0;i<len2;i++) cout<<next_[i]<<" ";	
	}
}

算法原理:

求出next数组(先不解释),然后子串从头开始匹配,如果在子串的位置i处失匹了,那么子串跳到next[i]的位置继续和母串匹配,这样,母串只需要遍历一次,子串在不停的往回跳动。

那么我们怎么知道子串失匹时往回跳多少呢,这样跳为什么正确呢?

针对这俩个问题,给出如下证明:

问题一:怎么优化,减小重复匹配次数(通过对称性)

对于子串 0 — i-1 ,我们找到最长的前缀串 0—k1 和 最长后缀串k2—-i-1,使得这俩个串是相同的,这个是可以存在的对吧,例如

0 1 2 3 4 5  6 7 8 9

a b c  a d e a a b c

那么 i-1 = 9 ,此时k1 = 2   , k2 = 7 。找到了最长的前缀后缀匹配串,先不管怎么找到的。找到之后我们发现一个最大的趣事:当位置i = 10(此处没有给出i的字符是多少)和母串失匹时,我们是知道前0 – 9 和母串是匹配的,那么优化条件就来了,我们的最大前缀串等价于最大后缀串 已经和母串匹配过 ,所以我们从位置i跳到 3位置让子串的3位置和母串继续匹配,因为母串前面的三个字符和子串的后缀串是匹配的,而后缀串和前缀串是相同的,所以前缀串自然和母串的前面几个字符匹配了。这个思路不仅仅只用在了这个算法中,可以先了解下马拉车算法中对称性完全匹配,再来证明这个问题就很简单了。

问题二:为什么跳到上述结论中的位置中是正确的。

假设存在一个更加后面的位置x可以跳,即前缀串和后缀串的匹配长度会大于之前我们通过kmp算法预处理找到的next值要大,但是事实我们用kmp找到的前缀后缀串相同的长度一定是最大的,这个证明留到后面解决。

问题三:现在我们需要来解释下kmp是怎么得到最大的前后缀匹配串的长度的。

《字符串--最重要的基本匹配算法KMP》上面图是自己拿画板画的,虽然很丑,但是还是能看的懂的(相信大家>~<)

先看看俩个标号为①的区间,这就是s[i]的前缀和后缀相同的最长区间,那么当i失去匹配的时候,我们跳到next[i]也就是k处,想想就知道,上面也证明了,右边的 ①’ 就是在匹配s[i]前刚和母串匹配完的部分,假如我们再重新将子串的左边的 ① 区间和母串匹配是不是浪费了大量的不必要的时间,所以我们跳到k处继续和母串匹配就行了。

这里根据图给个证明,就是next[i]已经求出来了,是k,但是现在要得到next[i+1]怎么办?,我们发现,在s[i]的前缀和后缀(也就是俩个区间①)中,如果s[i] == s[k],那么马上就知道了next[i+1]==k+1的。

但是,最关键的问题,也是最难想通的来了,万一在求next数组时,我们的s[i]!=s[k]怎么办?一般人们会发现递推的这个前缀没有用了,因为不连续了,的确!但是我们发现了个重要的线索!

假设next[k] == k’ , 那么区间②==区间②’ ,因为这俩个分别是s[k]的最大匹配前缀和后缀,但②’同时是①的后缀,所以②’也可以对应到①’的后缀,我们标记为②”。此时有② == ②’ == ②” 。

又因为② == ②” ,所以我们只需要接着判断s[k’] == s[i]?,

假如s[k’] == s[i]: 则表示假如子串在i+1处失匹,那么可以跳跃到k’ +1 处,继续比较,因为 字符串 ② + s[k’] == ②”+s[i] 。

假如s[k’] != s[i] ,我们发现这是个重复的问题,同理 接着找到k” = next[k’] 继续和s[i]比较,直到某个点满足条件为止,当不存在匹配的点的时候,也表示我们此时必须将子串的第一个s[0] 和母串重新匹配。

以上就是所有的问题证明,还有什么不懂的地方欢迎在下方留言,一起解答!

KMP算法优化:解决匹配多次都失败,但是子串匹配次数仍然多的问题

void new_kmp(){
	int k = -1,i = 0;
	next_[0] = -1;
	while(i<len2){
	    if(k == -1 || sub_str[i] == sub_str[k]){
                i++;k++;
                if(sub_str[i] != sub_str[k])
    			    next_[i] = k;
                else next_[i] = next_[k]; 
	    }else k = next_[k];
	}	
}

变化的部分只有:《字符串--最重要的基本匹配算法KMP》

为什么kmp原型是在next[++i] != next[++k]的基础上赋值的呢?

从上面的图,我们又发现了问题:如果在s[i]处失匹,那么我们当然希望跳跃到的新的位置s[k] != s[i]的,很显然啊,因为你跳了之后字符还是一样的,再拿去和母串匹配,不还是会失去匹配吗,然后又得依照这个思路跳到新的next[k]处,那么我们直接跳到next[k]处不就好了吗?

当然,肯定有人问,为啥不拿while循环,直到不相等的条件下的next值再赋值,这个说的很好,我们发现在嵌套多个next值之后,这个跳跃也是很费时间的,所以没有太多的必要去while循环找不相同的嵌套next的值。

    原文作者:KMP算法
    原文地址: https://blog.csdn.net/qq_34465787/article/details/82527505
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞