Kmp算法的比較好理解的博文···

文章轉自:http://blog.csdn.net/starstar1992/article/details/54913261

KMP算法看懂了覺得特別簡單,思路很簡單,看不懂之前,查各種資料,看的稀裏糊塗,即使網上最簡單的解釋,依然看的稀裏糊塗。 
我花了半天時間,爭取用最短的篇幅大致搞明白這玩意到底是啥。 
這裏不扯概念,只講算法過程和代碼理解:

KMP算法求解什麼類型問題

字符串匹配。給你兩個字符串,尋找其中一個字符串是否包含另一個字符串,如果包含,返回包含的起始位置。 
如下面兩個字符串:

char *str = "bacbababadababacambabacaddababacasdsd";
char *ptr = "ababaca";
  • 1
  • 2

str有兩處包含ptr 
分別在str的下標10,26處包含ptr。

“bacbababadababacambabacaddababacasdsd”;\ 
《Kmp算法的比較好理解的博文···》

問題類型很簡單,下面直接介紹算法

算法說明

一般匹配字符串時,我們從目標字符串str(假設長度爲n)的第一個下標選取和ptr長度(長度爲m)一樣的子字符串進行比較,如果一樣,就返回開始處的下標值,不一樣,選取str下一個下標,同樣選取長度爲n的字符串進行比較,直到str的末尾(實際比較時,下標移動到n-m)。這樣的時間複雜度是O(n*m)

KMP算法:可以實現複雜度爲O(m+n)

爲何簡化了時間複雜度: 
充分利用了目標字符串ptr的性質(比如裏面部分字符串的重複性,即使不存在重複字段,在比較時,實現最大的移動量)。 
上面理不理解無所謂,我說的其實也沒有深刻剖析裏面的內部原因。

考察目標字符串ptr: 
ababaca 
這裏我們要計算一個長度爲m的轉移函數next。

next數組的含義就是一個固定字符串的最長前綴和最長後綴相同的長度。

比如:abcjkdabc,那麼這個數組的最長前綴和最長後綴相同必然是abc。 
cbcbc,最長前綴和最長後綴相同是cbc。 
abcbc,最長前綴和最長後綴相同是不存在的。

**注意最長前綴:是說以第一個字符開始,但是不包含最後一個字符。 
比如aaaa相同的最長前綴和最長後綴是aaa。** 
對於目標字符串ptr,ababaca,長度是7,所以next[0],next[1],next[2],next[3],next[4],next[5],next[6]分別計算的是 
aababaababababaababacababaca的相同的最長前綴和最長後綴的長度。由於aababaababababaababacababaca的相同的最長前綴和最長後綴是“”,“”,“a”,“ab”,“aba”,“”,“a”,所以next數組的值是[-1,-1,0,1,2,-1,0],這裏-1表示不存在,0表示存在長度爲1,2表示存在長度爲3。這是爲了和代碼相對應。

下圖中的1,2,3,4是一樣的。1-2之間的和3-4之間的也是一樣的,我們發現A和B不一樣;之前的算法是我把下面的字符串往前移動一個距離,重新從頭開始比較,那必然存在很多重複的比較。現在的做法是,我把下面的字符串往前移動,使3和2對其,直接比較C和A是否一樣。

《Kmp算法的比較好理解的博文···》

《Kmp算法的比較好理解的博文···》

代碼解析

void cal_next(char *str, int *next, int len)
{
    next[0] = -1;//next[0]初始化爲-1,-1表示不存在相同的最大前綴和最大後綴
    int k = -1;//k初始化爲-1
    for (int q = 1; q <= len-1; q++)
    {
        while (k > -1 && str[k + 1] != str[q])//如果下一個不同,那麼k就變成next[k],注意next[k]是小於k的,無論k取任何值。
        {
            k = next[k];//往前回溯
        }
        if (str[k + 1] == str[q])//如果相同,k++
        {
            k = k + 1;
        }
        next[q] = k;//這個是把算的k的值(就是相同的最大前綴和最大後綴長)賦給next[q]
    }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17

KMP

這個和next很像,具體就看代碼,其實上面已經大概說完了整個匹配過程。

int KMP(char *str, int slen, char *ptr, int plen)
{
    int *next = new int[plen];
    cal_next(ptr, next, plen);//計算next數組
    int k = -1;
    for (int i = 0; i < slen; i++)
    {
        while (k >-1&& ptr[k + 1] != str[i])//ptr和str不匹配,且k>-1(表示ptr和str有部分匹配)
            k = next[k];//往前回溯//回到之前有共通處的地方,從共同處之後進行比較,比從頭開始要方便。//當前的K爲已經匹配了的字符串長度,Next(K)是這個字符串中,前K個長度中,有多少共同的,取到的值爲共同的個數//然後,從這個 新K之後 與 Q比較,能減少比較的長度, 當字符串重複的比例越多時 , 效率越高。
        if (ptr[k + 1] == str[i]) k = k + 1; if (k == plen-1)//說明k移動到ptr的最末端 { //cout << "在位置" << i-plen+1<< endl; //k = -1;//重新初始化,尋找下一個 //i = i - plen + 1;//i定位到該位置,外層for循環i++可以繼續找下一個(這裏默認存在兩個匹配字符串可以部分重疊),感謝評論中同學指出錯誤。 return i-plen+1;//返回相應的位置 } } return -1; }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21

測試

    char *str = "bacbababadababacambabacaddababacasdsd";
    char *ptr = "ababaca";
    int a = KMP(str, 36, ptr, 7);
    return 0;
  • 1
  • 2
  • 3
  • 4

注意如果str裏有多個匹配ptr的字符串,要想求出所有的滿足要求的下標位置,在KMP算法需要稍微修改一下。見上面註釋掉的代碼。

複雜度分析

next函數計算複雜度是(m),開始以爲是O(m^2),後來仔細想了想,cal__next裏的while循環,以及外層for循環,利用均攤思想,其實是O(m),這個以後想好了再寫上。

進一步說明(2018-3-14)

看了評論,大家對cal_next(..)函數和KMP()函數裏的

while (k > -1 && str[k + 1] != str[q])
        {
            k = next[k];
        }
  • 1
  • 2
  • 3
  • 4

while (k >-1&& ptr[k + 1] != str[i])
            k = next[k];
  • 1
  • 2

這個while循環和k=next[k]很疑惑!

如果你有疑惑,那就對啦,說明你是一個聰明的人(因爲我是聰明的人,我也在這個地方很疑惑,聰明的人所疑惑的地方都是一樣的!:)) 
首先我們看第一個while循環,它到底幹了什麼。

在此之前,我們先回到原程序。原程序裏有一個大的for()循環,那這個for()循環是幹嘛的?

這個for循環就是計算next[0],next[1],…next[q]…的值。

裏面最後一句next[q]=k就是說明每次循環結束,我們已經計算了ptr的前(q+1)個字母組成的子串的“相同的最長前綴和最長後綴的長度”。(這句話前面已經解釋了!) 這個“長度”就是k。

好,到此爲止,假設循環進行到 第 q 次,即已經計算了next[q],我們是怎麼計算next[q+1]呢?

比如我們已經知道ababab,q=4時,next[4]=0(k=0,表示該字符串的前5個字母組成的子串ababa存在相同的最長前綴和最長後綴的長度是1,所以k=0,next[4]=0。這個結果可以理解成我們自己觀察算的,也可以理解成程序自己算的,這不是重點,重點是程序根據目前的結果怎麼算next[5]的).,那麼對於字符串ababab,我們計算next[5]的時候,此時q=5, k=0(上一步循環結束後的結果)。那麼我們需要比較的是str[k+1]和str[q]是否相等,其實就是str[1]和str[5]是否相等!,爲啥從k+1比較呢,因爲上一次循環中,我們已經保證了str[k]和str[q](注意這個q是上次循環的q)是相等的(這句話自己想想,很容易理解),所以到本次循環,我們直接比較str[k+1]和str[q]是否相等(這個q是本次循環的q)。 
如果相等,那麼跳出while(),進入if(),k=k+1,接着next[q]=k。即對於ababab,我們會得出next[5]=2。 這是程序自己算的,和我們觀察的是一樣的。 
如果不等,我們可以用”ababac“描述這種情況。 不等,進入while()裏面,進行k=next[k],這句話是說,在str[k + 1] != str[q]的情況下,我們往前找一個k,使str[k + 1]==str[q],是往前一個一個找呢,還是有更快的找法呢? 一個一個找必然可以,即你把 k = next[k] 換成k- -也是完全能運行的。但是程序給出了一種更快的找法,那就是 k = next[k]。 程序的意思是說,一旦str[k + 1] != str[q],即在後綴裏面找不到時,我是可以直接跳過中間一段,跑到前綴裏面找,next[k]就是相同的最長前綴和最長後綴的長度。(這個解釋能懂不?) 
以上就是這個cal_next()函數裏的

while (k > -1 && str[k + 1] != str[q])
        {
            k = next[k];
            //k--;//也能運行
        }
  • 1
  • 2
  • 3
  • 4
  • 5

最難理解的地方的一個我的理解,有不對的歡迎指出。

複雜度分析:

分析KMP複雜度,那就直接看KMP函數。

cal_next(ptr, next, plen);
    int k = -1;
    for (int i = 0; i < slen; i++)
    {
        while (k >-1&& ptr[k + 1] != str[i])
            k = next[k];
        if (ptr[k + 1] == str[i])
            k = k + 1;
        if (k == plen-1)//說明k移動到ptr的最末端
        {
            cout << "在位置" << i-plen+1<< endl;
            k = -1;//重新初始化,尋找下一個
            i = i - plen + 2;//i定位到找到位置處的下一個位置(這裏默認存在兩個匹配字符串可以部分重疊)
            //return i;
        }
    }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

這玩意真的不好解釋,簡單說一下: 
從代碼解釋複雜度是一件比較難得事情,我們從 
《Kmp算法的比較好理解的博文···》

這個圖來解釋。

我們可以看到,匹配串每次往前移動,都是一大段一大段移動,假設匹配串裏不存在重複的前綴和後綴,即next的值都是-1,那麼每次移動其實就是一整個匹配串往前移動m個距離。然後重新一一比較,這樣就比較m次,概括爲,移動m距離,比較m次,移到末尾,就是比較n次,O(n)複雜度。 假設匹配串裏存在重複的前綴和後綴,我們移動的距離相對小了點,但是比較的次數也小了,整體代價也是O(n)。 
所以複雜度是一個線性的複雜度。

点赞