【浅学数据结构】数据结构之 “串”

2019年11月30日 174次阅读

数据结构之 “串”

KMP模式匹配算法原理

总结

串的定义

我想大家很容易联想到字符串，由零个或多个字符组成的有限序列叫做字符串；其实这里说的串也是这个意思；

串还可以分为以下类：
空格串，是只包含空格的串。注意他与空串的区别，空格串是有内容长度的，而且可能不止一个空格。
空串，零个字符的串称为空串，高级语言中用“”标示。
子串，串中任意个数的连续字符组成的子序列称为该串的子串。

串的比较

两个数字，很容易比较大小。如2>1,这完全正确，可是两个字符串如何比较呢？事实上，串的比较是通过组成串的字符之间的编码来进行的，而字符的编码指的是字符在对应字符集中的序号。

计算机中常用字符是使用标准的ASCII 编码，更准确一点，由7位二进制数标示一个字符，总共可以表示128个字符。后来发现一些特殊符号的出现，128个不够用，于是扩展ASCII码为8位二进制数表示一个字符，总共可以表示256个字符，这已经足够满足以英语为主的语言和特殊符号进行输入、存储、输出等操作的字符需要了。可是，单我国就有除汉族外的满、回、藏、蒙古等多个少数民族文字，换作全世界估计要有成百上千种语言与文字，显然256个字符是不够的，因此后来就有了Unicode编码，比较常用的由16位的二进制数表示一个字符，这样总共就可以表示216个字符，约是65w多个字符，足够表示世界上所有语言的所有字符了。当然，为了和ASCII兼容，Unicode的前256个字符与ASCII码完全相同。

事实证明，对可以用ASCII表示的字符使用UNICODE并不高效，因为UNICODE比ASCII占用大一倍的空间，而对ASCII来说高字节的0对他毫无用处。为了解决这个问题，就出现了一些中间格式的字符集，他们被称为通用转换格式，即UTF（Unicode Transformation Format）。常见的UTF格式有：UTF-7, UTF-7.5, UTF-8,UTF-16, 以及 UTF-32。

所以我们要比较两个串是否相等，必须是它们的长度以及它们各个对应的位置的字符都相等时，才算相等。

串的存储结构

串的存储结构与线性表相同，分两种。
串的顺序存储结构是用一组地址连续的存储单元来存储串中的字符序列的。按照预定义的大小，为每个定义的串变量分配一个固定长度的存储区。一般是用定长数组来定义。

既然是定长数组，就存在一个预定义的最大串长度，一般可以将实际的串长度值保持在数组的0下标位置，但也有些编程语言不这么干，觉得存个数字占个空间麻烦。它规定在串值后面加一个不计入串长度的结束标记字符，比如“\0”来表示串值的终结，这个时候，你要想知道此时的串长度，就需要遍历计算一下才知道了，其实这还是需要占用一个空间。
如图：
《【浅学数据结构】数据结构之 “串”》

其实这样的存储没有问题，不过对于串的操作，追加或替换会出问题，都有可能使得串序列的长度超过数组的长度MaxSize。

于是对于串的顺序存储，有一些变化，串值的存储空间可在程序执行过程中动态分配而得。比如在计算机中存在一个自由存储区，叫做“堆”。这个堆可以由C语言的动态分配函数malloc（）和free（）来管理。

串的链式存储

由于串结构的特殊性，结构中的每个元素数据是一个字符，如果也简单的应用链表存储串值，一个结点对应一个字符，就会很浪费空间。因此，一个结点可以存放一个字符，也可以存放多个字符，最后一个结点若是未被占满时，可以用“#”或者其他非串值字符补全，如图：
《【浅学数据结构】数据结构之 “串”》

当然，这里一个结点存多少个字符才合适就变得很重要，这会直接影响串处理的效率，需要根据实际情况作出选择。但串的链式存储结构除了在连接串与串操作时有一定方便之外，总的来说不如顺序存储灵活，性能也不如顺序存储结构好。

朴素的模式匹配算法

如要查一个大字符中包含某个子字符串，如”wavefar software”中包含“wavefar”。
简单的说，就是对主串的每个字符做为子串开头，与要匹配的字符串进行匹配，对主串做大循环，每个字符开头做T的长度小循环，直到匹配成功或全部遍历完成为止。

KMP模式匹配算法

你可以忍受朴素模式匹配算法的低效吗？也许不可以、也许无所谓。但在很多年前我们科学家们，觉得像这种有多个0和1重复字符串的字符串，却需要挨个遍历的算法是非常糟糕的事情。于是就有了一个新的算法，可以大大避免重复遍历的情况，我们把它称之为克努特—莫里斯—普拉特算法，简称KMP算法。

KMP模式匹配算法原理

举例来说，有一个字符串”BBC ABCDAB ABCDABCDABDE”，我想知道，里面是否包含另一个字符串”ABCDABD”？
许多算法可以完成这个任务，Knuth-Morris-Pratt算法（简称KMP）是最常用的之一。它以三个发明者命名，起头的那个K就是著名科学家Donald Knuth。

一个基本事实是，当空格与D不匹配时，你其实知道前面六个字符是”ABCDAB”。KMP算法的想法是，设法利用这个已知信息，不要把”搜索位置”移回已经比较过的位置，继续把它向后移，这样就提高了效率。

怎么做到这一点呢？可以针对搜索词，算出一张《部分匹配表》（Partial Match Table）。这张表是如何产生的，后面再介绍，这里只要会用就可以了。

已知空格与D不匹配时，前面六个字符”ABCDAB”是匹配的。查表可知，最后一个匹配字符B对应的”部分匹配值”为2，因此按照下面的公式算出向后移动的位数：
移动位数 = 已匹配的字符数 – 对应的部分匹配值
因为 6 – 2 等于4，所以将搜索词向后移动4位。
因为空格与Ｃ不匹配，搜索词还要继续往后移。这时，已匹配的字符数为2（“AB”），对应的”部分匹配值”为0。所以，移动位数 = 2 – 0，结果为 2，于是将搜索词向后移2位。
因为空格与A不匹配，继续后移一位。
逐位比较，直到发现C与D不匹配。于是，移动位数 = 6 – 2，继续将搜索词向后移动4位。
逐位比较，直到搜索词的最后一位，发现完全匹配，于是搜索完成。如果还要继续搜索（即找出全部匹配），移动位数 = 7 – 0，再将搜索词向后移动7位，这里就不再重复了。

下面介绍《部分匹配表》是如何产生的。

首先，要了解两个概念：“前缀”和”后缀”。 “前缀”指除了最后一个字符以外，一个字符串的全部头部组合；”后缀”指除了第一个字符以外，一个字符串的全部尾部组合。

“部分匹配值”就是”前缀”和”后缀”的最长的共有元素的长度。以”ABCDABD”为例，

－　”A”的前缀和后缀都为空集，共有元素的长度为0；

－　”AB”的前缀为[A]，后缀为[B]，共有元素的长度为0；

－　”ABC”的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；

－　”ABCD”的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；

－　“ABCDA”的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为”A”，长度为1；

－　“ABCDAB”的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为”AB”，长度为2；

－　”ABCDABD”的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。

“部分匹配”的实质是，有时候，字符串头部和尾部会有重复。比如，“ABCDAB”之中有两个”AB”，那么它的”部分匹配值”就是2（”AB”的长度）。搜索词移动的时候，第一个”AB”向后移动4位（字符串长度-部分匹配值），就可以来到第二个”AB”的位置。
next数组的求解思路

通过上文完全可以对kmp算法的原理有个清晰的了解，那么下一步就是编程实现了，其中最重要的就是如何根据待匹配的模版字符串求出对应每一位的最大相同前后缀的长度。我先给出我的代码：

 void makeNext(const char P[],int next[])
 {
     int q,k;//q:模版字符串下标；k:最大前后缀长度
     int m = strlen(P);//模版字符串长度
     next[0] = 0;//模版字符串的第一个字符的最大前后缀长度为0
     for (q = 1,k = 0; q < m; ++q)//for循环，从第二个字符开始，依次计算每一个字符对应的next值
     {
         while(k > 0 && P[q] != P[k])//递归的求出P[0]···P[q]的最大的相同的前后缀长度k
             k = next[k-1];          //不理解没关系看下面的分析，这个while循环是整段代码的精髓所在，确实不好理解 
         if (P[q] == P[k])//如果相等，那么最大相同前后缀长度加1
         {
             k++;
         }
         next[q] = k;
     }
 }

现在我着重讲解一下while循环所做的工作：

已知前一步计算时最大相同的前后缀长度为k（k>0），即P[0]···P[k-1]；
此时比较第k项P[k]与P[q],如图1所示
如果P[K]等于P[q]，那么很简单跳出while循环;
那么我们应该利用已经得到的next[0]···next[k-1]来求P[0]···P[k-1]这个子串中最大相同前后缀，可能有同学要问了——为什么要求P[0]···P[k-1]的最大相同前后缀呢？？？是啊！为什么呢？原因在于P[k]已经和P[q]失配了，而且P[q-k] ··· P[q-1]又与P[0] ···P[k-1]相同，看来P[0]···P[k-1]这么长的子串是用不了了，那么我要找个同样也是P[0]打头、P[k-1]结尾的子串即P[0]···P[j-1] (j==next[k-1])，看看它的下一项P[j]是否能和P[q]匹配。
如图2所示

附代码：

#include<stdio.h>
#include<string.h>
void makeNext(const char P[],int next[])
{
    int q,k;
    int m = strlen(P);
    next[0] = 0;
    for (q = 1,k = 0; q < m; ++q)
    {
        while(k > 0 && P[q] != P[k])
            k = next[k-1];
        if (P[q] == P[k])
        {
            k++;
        }
        next[q] = k;
    }
}

int kmp(const char T[],const char P[],int next[])
{
    int n,m;
    int i,q;
    n = strlen(T);
    m = strlen(P);
    makeNext(P,next);
    for (i = 0,q = 0; i < n; ++i)
    {
        while(q > 0 && P[q] != T[i])
            q = next[q-1];
        if (P[q] == T[i])
        {
            q++;
        }
        if (q == m)
        {
            printf("Pattern occurs with shift:%d\n",(i-m+1));
        }
    }    
}

int main()
{
    int i;
    int next[20]={0};
    char T[] = "ababxbababcadfdsss";
    char P[] = "abcdabd";
    printf("%s\n",T);
    printf("%s\n",P );
    // makeNext(P,next);
    kmp(T,P,next);
    for (i = 0; i < strlen(P); ++i)
    {
        printf("%d ",next[i]);
    }
    printf("\n");

    return 0;
}

总结

这章我们讲了“串”这样的数据结构，串（string）是由零个或多个字符组成的有限序列，又名叫字符串。本质上，它是一种线性表的扩展，但相对于线性表关注一个个元素来说，我们队串这种结构更多的是关注它子串的应用问题，如查找、替换等操作。现在高级语言都有针对串的函数可以调用。我们在使用这些函数的时候，同时也应该理解它当中的原来，以便于在碰到复杂问题时，可以灵活使用，比如KMP模式匹配算法的学习，就是更有效的去理解index函数当中的实现细节。