浅谈字符串匹配的几种算法（KMP,Boyer-Moore）

2019年3月17日 720次阅读来源: KMP算法

 自从开始进行算法学习之后，谈到字符串匹配就总是KMP算法，今天在网上查阅相关资料时，偶然发现了Boyer-Moore算法，思考过后发现了其中的精妙之处，于是就写下这篇文章来谈谈自己对几种算法的理解。

1.最简单通俗的模式匹配
首先我们给定一个例子：给定模式串T:abcac,主串S:ababcabcacbab，我们需要判断T是不是S的字串。
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
分别用计数指针i,j指示主串S和模式串T中当前正待比较的位置，该匹配过程的基本思想是：从主串的POS位置的字符起和模式串的第一个字符开始比较，如果相同，就继续逐个比较后续字符；如果不相同就从主串的下一个位置和模式串的第一个位置的字符重新开始比较，一直到查找完毕为止。
下面给出其算法（复杂度为O(N+M)）

int search(char S[],char T[])
{
int l1,l2,i=0,j=0;
    l1=strlen(S);
    l2=strlen(T);
    while(i<l1&&j<l2){
        if(S[i]==T[j]){
            i++,j++;
        }
        else{
            i=i-j+1;j=0;
        }
        if(j>=l2)
            return ok;
        else
            return false;
    }
    }

简单匹配的思想很容易理解，最坏的时间复杂度为O（n*m）,当遇到如主串为aaaaaaaaaaaaaaab,模式串为aaab 此种类型时具有最坏的查找效率。

2.KMP算法

为了实现对算法的修改，我们需要知道当匹配过程中产生失配的时候，主串中第i个字符与模式串中哪个字符再比较可使得结果比较的次数最少。
KMP算法相对于朴素的匹配算法改进在于引入了next数组概念，使得当出现两个字符不匹配时，根据已经匹配部分的性质，使模式串向右移动指定位置，再重新进行匹配。

得到next数组的程序为

void get_next(){
    int i=0,j=-1;
    next[0]=-1;
    while(i<len){
        if(j==-1||str[i]==str[j]){
            i++;j++;
            next[i]=j;
        }
        else{
            j=next[j];
        }
    }
}

3.Boyer-Moore算法（参考> http://kb.cnblogs.com/page/176945/）
　下面，我根据Moore教授自己的例子来解释这种算法。

1.　　《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》

　　假定字符串为”HERE IS A SIMPLE EXAMPLE”，搜索词为”EXAMPLE”。

　　2.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　首先，”字符串”与”搜索词”头部对齐，从尾部开始比较。

　　这是一个很聪明的想法，因为如果尾部字符不匹配，那么只要一次比较，就可以知道前7个字符肯定不是要找的结果。

　　我们看到，”S”与”E”不匹配。这时，”S”就被称为”坏字符”（bad character），即不匹配的字符。我们还发现，”S”不包含在搜索词”EXAMPLE”之中，这意味着可以把搜索词直接移到”S”的后一位。

　　3.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　依然从尾部开始比较，发现”P”与”E”不匹配，所以”P”是”坏字符”。但是，”P”包含在搜索词”EXAMPLE”之中。所以，将搜索词后移两位，两个”P”对齐。

　　4.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　我们由此总结出”坏字符规则”：

后移位数 = 坏字符的位置 - 搜索词中的上一次出现位置

　　如果”坏字符”不包含在搜索词之中，则上一次出现位置为 -1。

　　以”P”为例，它作为”坏字符”，出现在搜索词的第6位（从0开始编号），在搜索词中的上一次出现位置为4，所以后移 6 – 4 = 2位。再以前面第二步的”S”为例，它出现在第6位，上一次出现位置是 -1（即未出现），则整个搜索词后移 6 – (-1) = 7位。

　　5.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　依然从尾部开始比较，”E”与”E”匹配。

　　6.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　比较前面一位，”LE”与”LE”匹配。

　　7.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　比较前面一位，”PLE”与”PLE”匹配。

　　8.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　比较前面一位，”MPLE”与”MPLE”匹配。我们把这种情况称为”好后缀”（good suffix），即所有尾部匹配的字符串。注意，”MPLE”、”PLE”、”LE”、”E”都是好后缀。

　　9.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　比较前一位，发现”I”与”A”不匹配。所以，”I”是”坏字符”。

　　10.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　根据”坏字符规则”，此时搜索词应该后移 2 – （-1）= 3 位。问题是，此时有没有更好的移法？

　　11.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　我们知道，此时存在”好后缀”。所以，可以采用”好后缀规则”：

后移位数 = 好后缀的位置 - 搜索词中的上一次出现位置

　　计算时，位置的取值以”好后缀”的最后一个字符为准。如果”好后缀”在搜索词中没有重复出现，则它的上一次出现位置为 -1。

　　所有的”好后缀”（MPLE、PLE、LE、E）之中，只有”E”在”EXAMPLE”之中出现两次，所以后移 6 – 0 = 6位。

　　12.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　可以看到，”坏字符规则”只能移3位，”好后缀规则”可以移6位。所以，Boyer-Moore算法的基本思想是，每次后移这两个规则之中的较大值。

　　更巧妙的是，这两个规则的移动位数，只与搜索词有关，与原字符串无关。因此，可以预先计算生成《坏字符规则表》和《好后缀规则表》。使用时，只要查表比较一下就可以了。

　　13.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　继续从尾部开始比较，”P”与”E”不匹配，因此”P”是”坏字符”。根据”坏字符规则”，后移 6 – 4 = 2位。

　　14.
《浅谈字符串匹配的几种算法（KMP,Boyer-Moore）》
　　从尾部开始逐位比较，发现全部匹配，于是搜索结束。如果还要继续查找（即找出全部匹配），则根据”好后缀规则”，后移 6 – 0 = 6位，即头部的”E”移到尾部的”E”的位置。

    原文作者：KMP算法
    原文地址: https://blog.csdn.net/ydjcs567/article/details/50428141
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。