话不多说 ,先上一个板子,通过练习来体会下算法:
#include<bits/stdc++.h>
using namespace std;
int next_[1005],len1,len2;
char str[1005],sub_str[1005];
void kmp(){
int k = -1,i = 0;
next_[0] = -1;
while(i<len2){
if(k == -1 || sub_str[i] == sub_str[k]){
next_[++i] = ++k;
}else
k = next_[k];
}
}
int main(){
while(cin>>str>>sub_str){
len1 = strlen(str);
len2 = strlen(sub_str);
kmp();
for(int i = 0;i<len2;i++) cout<<sub_str[i]<<" ";
cout<<endl;
for(int i = 0;i<len2;i++) cout<<next_[i]<<" ";
}
}
算法原理:
求出next数组(先不解释),然后子串从头开始匹配,如果在子串的位置i处失匹了,那么子串跳到next[i]的位置继续和母串匹配,这样,母串只需要遍历一次,子串在不停的往回跳动。
那么我们怎么知道子串失匹时往回跳多少呢,这样跳为什么正确呢?
针对这俩个问题,给出如下证明:
问题一:怎么优化,减小重复匹配次数(通过对称性)
对于子串 0 — i-1 ,我们找到最长的前缀串 0—k1 和 最长后缀串k2—-i-1,使得这俩个串是相同的,这个是可以存在的对吧,例如
0 1 2 3 4 5 6 7 8 9
a b c a d e a a b c
那么 i-1 = 9 ,此时k1 = 2 , k2 = 7 。找到了最长的前缀后缀匹配串,先不管怎么找到的。找到之后我们发现一个最大的趣事:当位置i = 10(此处没有给出i的字符是多少)和母串失匹时,我们是知道前0 – 9 和母串是匹配的,那么优化条件就来了,我们的最大前缀串等价于最大后缀串 已经和母串匹配过 ,所以我们从位置i跳到 3位置让子串的3位置和母串继续匹配,因为母串前面的三个字符和子串的后缀串是匹配的,而后缀串和前缀串是相同的,所以前缀串自然和母串的前面几个字符匹配了。这个思路不仅仅只用在了这个算法中,可以先了解下马拉车算法中对称性完全匹配,再来证明这个问题就很简单了。
问题二:为什么跳到上述结论中的位置中是正确的。
假设存在一个更加后面的位置x可以跳,即前缀串和后缀串的匹配长度会大于之前我们通过kmp算法预处理找到的next值要大,但是事实我们用kmp找到的前缀后缀串相同的长度一定是最大的,这个证明留到后面解决。
问题三:现在我们需要来解释下kmp是怎么得到最大的前后缀匹配串的长度的。
上面图是自己拿画板画的,虽然很丑,但是还是能看的懂的(相信大家>~<)
先看看俩个标号为①的区间,这就是s[i]的前缀和后缀相同的最长区间,那么当i失去匹配的时候,我们跳到next[i]也就是k处,想想就知道,上面也证明了,右边的 ①’ 就是在匹配s[i]前刚和母串匹配完的部分,假如我们再重新将子串的左边的 ① 区间和母串匹配是不是浪费了大量的不必要的时间,所以我们跳到k处继续和母串匹配就行了。
这里根据图给个证明,就是next[i]已经求出来了,是k,但是现在要得到next[i+1]怎么办?,我们发现,在s[i]的前缀和后缀(也就是俩个区间①)中,如果s[i] == s[k],那么马上就知道了next[i+1]==k+1的。
但是,最关键的问题,也是最难想通的来了,万一在求next数组时,我们的s[i]!=s[k]怎么办?一般人们会发现递推的这个前缀没有用了,因为不连续了,的确!但是我们发现了个重要的线索!
假设next[k] == k’ , 那么区间②==区间②’ ,因为这俩个分别是s[k]的最大匹配前缀和后缀,但②’同时是①的后缀,所以②’也可以对应到①’的后缀,我们标记为②”。此时有② == ②’ == ②” 。
又因为② == ②” ,所以我们只需要接着判断s[k’] == s[i]?,
假如s[k’] == s[i]: 则表示假如子串在i+1处失匹,那么可以跳跃到k’ +1 处,继续比较,因为 字符串 ② + s[k’] == ②”+s[i] 。
假如s[k’] != s[i] ,我们发现这是个重复的问题,同理 接着找到k” = next[k’] 继续和s[i]比较,直到某个点满足条件为止,当不存在匹配的点的时候,也表示我们此时必须将子串的第一个s[0] 和母串重新匹配。
以上就是所有的问题证明,还有什么不懂的地方欢迎在下方留言,一起解答!
KMP算法优化:解决匹配多次都失败,但是子串匹配次数仍然多的问题
void new_kmp(){
int k = -1,i = 0;
next_[0] = -1;
while(i<len2){
if(k == -1 || sub_str[i] == sub_str[k]){
i++;k++;
if(sub_str[i] != sub_str[k])
next_[i] = k;
else next_[i] = next_[k];
}else k = next_[k];
}
}
变化的部分只有:
为什么kmp原型是在next[++i] != next[++k]的基础上赋值的呢?
从上面的图,我们又发现了问题:如果在s[i]处失匹,那么我们当然希望跳跃到的新的位置s[k] != s[i]的,很显然啊,因为你跳了之后字符还是一样的,再拿去和母串匹配,不还是会失去匹配吗,然后又得依照这个思路跳到新的next[k]处,那么我们直接跳到next[k]处不就好了吗?
当然,肯定有人问,为啥不拿while循环,直到不相等的条件下的next值再赋值,这个说的很好,我们发现在嵌套多个next值之后,这个跳跃也是很费时间的,所以没有太多的必要去while循环找不相同的嵌套next的值。