字符串匹配KMP算法
KMP算法的流程
- 假设现在文本串S匹配到 i 位置,模式串P匹配到 j 位置
- 如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++,继续匹配下一个字符;
- 如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]。一直回溯到匹配或者-1;
next数组的含义
- next 数组各值的含义:代表当前字符之前的字符串中,有多大长度的相同前缀后缀。
- 例如如果next [j] = k,代表j 之前的字符串中有最大长度为k 的相同前缀后缀。
- 在某个字符失配时,该字符对应的next 值会告诉你下一步匹配中,模式串应该跳到哪个位置(跳到next [j] 的位置)。
- 如果next [j] 等于0或-1,则跳到模式串的开头字符,若next [j] = k 且 k > 0,代表下次匹配跳到j 之前的某个字符,而不是跳到开头,且具体跳过了k 个字符。
计算一个模式串的next数组代码如下:
/*
next 数组含义:代表当前字符之前的字符串中,有多大长度的相同前缀后缀
*/
void cal_next(const string &pattern, vector<int> &next) {
int m = pattern.size();
int j = -1;
next[0] = -1;
for (int i = 1; i < m; i++) {
while (j > -1 && pattern[j + 1] != pattern[i]) {
j = next[j];// 不匹配,要一直回溯到匹配的地方或者说是-1
}
if (pattern[j + 1] == pattern[i]) {
j++;
}
next[i] = j;
}
}
两个字符串匹配代码
int kmp(const string &text,const string& pattern) {
int n = text.size();
int m = pattern.size();
if (m == 0) {
return 0; // 当模式的长度为0,返回0;
}
vector<int> next(m, 0);
cal_next(pattern,next);
int j = -1;
for (int i = 0; i < n;i++) {
while (j > -1 && text[i] != pattern[j + 1]) {
j = next[j];// 不匹配,要一直回溯到匹配的地方或者说是-1
}
if (text[i] == pattern[j + 1]) {
j++;
}
if (j == m-1) { // 遍历完成
return i - j;
}
}
return -1;
}