数据结构 笔记:KMP子串查找算法

发现

-匹配失败时的右移位数与子串本身相关,与目标串无关

-移动位数=已匹配的字符数-对应的部分匹配值

-任意子串都穿在一个唯一的部位匹配表

前缀

-除了最后一个字符以外,一个字符串的全部头部组合

后缀

-出了第一个字符以外,一个字符串的全部尾部组合

部分匹配值

-前缀和后缀最长共有元素的长度

 字符前缀后缀交集匹配
1A0
2ABAB0
3ABCA,ABBC,C0
4ABCDA,AB,ABCBCD,CD,D0
5ABCDAA,AB,ABC,ABCDBCDA,CDA,DA,AA1
6ABCDABA,AB,ABC,ABCD,ABCDABCDAB,CDAB,DAB,AB,BAB2
7ABCDABD

A,AB,ABC,ABCD,ABCDA,

ABCDAB

BCDABD,CDABD,DABD,ABD,BD,D0

实现关键

-PMT[1] = 0(下标为0的元素匹配值为0)

-从2个字符开始递推(从下标为1的字符开始递推)

-假设PMT[n] = PMT[n-1] +1(最长共有元素的长度)

-当假设不成立,PMT[n] 在PMT[n-1]的基础上减小

部分匹配表的使用(KMP算法)

#include <iostream>

int* make_pmt(const char* p)
{
    int len = strlen(p);
    int* ret = static_cast<int*>(malloc(sizeof(int) * len));

    if( ret != NULL)
    {
        int ll = 0;

        ret[0] = 0;

        for(int i = 1;i<len;i++)
        {
            while((ll > 0) && p[ll] != p[i])
            {
                ll = ret[ll -1];
            }
            if(p[ll] == p[i])
            {
                ll++;
            }

            ret[i] = ll;
        }
    }
    return ret;
}

int kmp(const char* s,const char* p)
{
    int ret = -1;
    int sl = strlen(s);
    int pl = strlen(p);
    int* pmt = make_pmt(p);

    if((pmt != NULL)&&(0 < pl) &&(pl <= sl))
    {
        for(int i = 0,j = 0;i<sl;i++)
        {
            while((j > 0) && (s[i] != p[j]))
            {
                j = pmt[j-1];

            }

            if(s[i] == p[j])
            {
                j++;
            }

            if( j == pl )
            {
                ret = i  + 1 - pl;
                break;
            }
        }
    }
    free(pmt);

    return ret;
}

int main()
{
    cout << kmp("sfshdfuweihrfwshfuiwehfuwefiwhe","sfshdfuweihrfwshfuiwehfuwefiwhes") << endl;


    return 0;
}

总结:

-部分匹配表示提高子串查找效率的关键

-部分匹配值定义为前缀和后缀最长共有元素的长度

-可以用递推的方法产生部分匹配表

-KMP利用部分匹配值与子串移动位数的关系提高查找效率

    原文作者:查找算法
    原文地址: https://blog.csdn.net/qq_29962483/article/details/83346730
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞