字符串--最重要的基本匹配算法KMP

2019年3月17日 375次阅读来源: KMP算法

话不多说，先上一个板子，通过练习来体会下算法：

#include<bits/stdc++.h>
using namespace std;
int next_[1005],len1,len2;
char str[1005],sub_str[1005];
void kmp(){
	int k = -1,i = 0;
	next_[0] = -1;
	while(i<len2){
		if(k == -1 || sub_str[i] == sub_str[k]){
			next_[++i] = ++k;
		}else
			k = next_[k];
	}	
}
int main(){
	while(cin>>str>>sub_str){
		len1 = strlen(str);
		len2 = strlen(sub_str);
		kmp();
		for(int i = 0;i<len2;i++) cout<<sub_str[i]<<"  ";
		cout<<endl; 
		for(int i = 0;i<len2;i++) cout<<next_[i]<<" ";	
	}
}

算法原理：

求出next数组（先不解释），然后子串从头开始匹配，如果在子串的位置i处失匹了，那么子串跳到next[i]的位置继续和母串匹配，这样，母串只需要遍历一次，子串在不停的往回跳动。

那么我们怎么知道子串失匹时往回跳多少呢，这样跳为什么正确呢？

针对这俩个问题，给出如下证明：

问题一：怎么优化，减小重复匹配次数（通过对称性）

对于子串 0 — i-1 ,我们找到最长的前缀串 0—k1 和最长后缀串k2—-i-1,使得这俩个串是相同的，这个是可以存在的对吧，例如

0 1 2 3 4 5 6 7 8 9

a b c a d e a a b c

那么 i-1 = 9 ,此时k1 = 2 , k2 = 7 。找到了最长的前缀后缀匹配串，先不管怎么找到的。找到之后我们发现一个最大的趣事：当位置i = 10（此处没有给出i的字符是多少）和母串失匹时，我们是知道前0 – 9 和母串是匹配的，那么优化条件就来了，我们的最大前缀串等价于最大后缀串已经和母串匹配过，所以我们从位置i跳到 3位置让子串的3位置和母串继续匹配，因为母串前面的三个字符和子串的后缀串是匹配的，而后缀串和前缀串是相同的，所以前缀串自然和母串的前面几个字符匹配了。这个思路不仅仅只用在了这个算法中，可以先了解下马拉车算法中对称性完全匹配，再来证明这个问题就很简单了。

问题二：为什么跳到上述结论中的位置中是正确的。

假设存在一个更加后面的位置x可以跳，即前缀串和后缀串的匹配长度会大于之前我们通过kmp算法预处理找到的next值要大，但是事实我们用kmp找到的前缀后缀串相同的长度一定是最大的，这个证明留到后面解决。

问题三：现在我们需要来解释下kmp是怎么得到最大的前后缀匹配串的长度的。

《字符串--最重要的基本匹配算法KMP》上面图是自己拿画板画的，虽然很丑，但是还是能看的懂的（相信大家>~<）

先看看俩个标号为①的区间，这就是s[i]的前缀和后缀相同的最长区间，那么当i失去匹配的时候，我们跳到next[i]也就是k处，想想就知道，上面也证明了，右边的 ①’ 就是在匹配s[i]前刚和母串匹配完的部分，假如我们再重新将子串的左边的 ① 区间和母串匹配是不是浪费了大量的不必要的时间，所以我们跳到k处继续和母串匹配就行了。

这里根据图给个证明，就是next[i]已经求出来了，是k，但是现在要得到next[i+1]怎么办？,我们发现，在s[i]的前缀和后缀（也就是俩个区间①）中，如果s[i] == s[k],那么马上就知道了next[i+1]==k+1的。

但是，最关键的问题，也是最难想通的来了，万一在求next数组时，我们的s[i]!=s[k]怎么办？一般人们会发现递推的这个前缀没有用了，因为不连续了，的确！但是我们发现了个重要的线索！

假设next[k] == k’ , 那么区间②==区间②’ ,因为这俩个分别是s[k]的最大匹配前缀和后缀，但②’同时是①的后缀，所以②’也可以对应到①’的后缀，我们标记为②”。此时有② == ②’ == ②” 。

又因为② == ②” ,所以我们只需要接着判断s[k’] == s[i]？,

假如s[k’] == s[i]: 则表示假如子串在i+1处失匹，那么可以跳跃到k’ +1 处，继续比较，因为字符串 ② + s[k’] == ②”+s[i] 。

假如s[k’] != s[i] ,我们发现这是个重复的问题，同理接着找到k” = next[k’] 继续和s[i]比较，直到某个点满足条件为止，当不存在匹配的点的时候，也表示我们此时必须将子串的第一个s[0] 和母串重新匹配。

以上就是所有的问题证明，还有什么不懂的地方欢迎在下方留言，一起解答！

KMP算法优化：解决匹配多次都失败，但是子串匹配次数仍然多的问题

void new_kmp(){
	int k = -1,i = 0;
	next_[0] = -1;
	while(i<len2){
	    if(k == -1 || sub_str[i] == sub_str[k]){
                i++;k++;
                if(sub_str[i] != sub_str[k])
    			    next_[i] = k;
                else next_[i] = next_[k]; 
	    }else k = next_[k];
	}	
}

变化的部分只有：《字符串--最重要的基本匹配算法KMP》

为什么kmp原型是在next[++i] != next[++k]的基础上赋值的呢？

从上面的图，我们又发现了问题：如果在s[i]处失匹，那么我们当然希望跳跃到的新的位置s[k] ！= s[i]的，很显然啊，因为你跳了之后字符还是一样的，再拿去和母串匹配，不还是会失去匹配吗，然后又得依照这个思路跳到新的next[k]处，那么我们直接跳到next[k]处不就好了吗？

当然，肯定有人问，为啥不拿while循环，直到不相等的条件下的next值再赋值，这个说的很好，我们发现在嵌套多个next值之后，这个跳跃也是很费时间的，所以没有太多的必要去while循环找不相同的嵌套next的值。

    原文作者：KMP算法
    原文地址: https://blog.csdn.net/qq_34465787/article/details/82527505
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。