AC自动机理解

对于AC自动机可能有的疑问。

首先上代码,该代码使用char型数组保存,事实上string也完全可以。

#include<bits/stdc++.h>
using namespace std;
char s[1000005];
struct Tree//字典树 
{
     int fail;//失配指针
     int vis[26];//子节点的位置
     int end;//标记有几个单词以这个节点结尾 
}AC[1000000];//Trie树
int cnt=0;//Trie的指针 
inline void Build(char* s)
{
        int l=strlen(s+1);
        int now=0;//字典树的当前指针 
        for(int i=1;i<=l;++i)//构造Trie树
        {
                if(AC[now].vis[s[i]-'a']==0)//Trie树没有这个子节点
                   AC[now].vis[s[i]-'a']=++cnt;//构造出来
                now=AC[now].vis[s[i]-'a'];//向下构造 
        }
        AC[now].end+=1;//标记单词结尾 
}
void Get_fail()//构造fail指针
{
        queue<int> Q;//队列 
        for(int i=0;i<26;++i)//第二层的fail指针提前处理一下
        {
               if(AC[0].vis[i]!=0)
               {
                   AC[AC[0].vis[i]].fail=0;//指向根节点
                   Q.push(AC[0].vis[i]);//压入队列 
               }
        }
        while(!Q.empty())//BFS求fail指针 
        {
              int u=Q.front();
              Q.pop();
              for(int i=0;i<26;++i)//枚举所有子节点
              {
                      if(AC[u].vis[i]!=0)//存在这个子节点
                      {
                              AC[AC[u].vis[i]].fail=AC[AC[u].fail].vis[i];
                                  //子节点的fail指针指向当前节点的
                                  //fail指针所指向的节点的相同子节点 
                              Q.push(AC[u].vis[i]);//压入队列 
                      }
                      else//不存在这个子节点 
                      AC[u].vis[i]=AC[AC[u].fail].vis[i];
                      //当前节点的这个子节点指向当
                      //前节点fail指针的这个子节点 
              }
        }
}
int AC_Query(char* s)//AC自动机匹配
{
        int l=strlen(s+1);
        int now=0,ans=0;
        for(int i=1;i<=l;++i)
        {
                now=AC[now].vis[s[i]-'a'];//向下一层
                for(int t=now;t&&AC[t].end!=-1;t=AC[t].fail)//循环求解
                {
                         ans+=AC[t].end;
                         AC[t].end=-1;
                } 
        }
        return ans;
}
int main()
{
     int n;
     cin>>n;
     for(int i=1;i<=n;++i)
     {
            scanf("%s",s+1);
            Build(s);
     }
     AC[0].fail=0;//结束标志 
     Get_fail();//求出失配指针
     scanf("%s",s+1);//文本串 
     cout<<AC_Query(s)<<endl;
     return 0;
}

1、其实fail数组fail[u]=v的意思就是根节点到v所表示的字符串为从根节点到u所代表的字符串的后缀。之所以这样做是因为如果在u处失配,则v的前半部分也已配对好,只需接着配对即可。

2、 在构造fail数组时,基于u(即当前子节点)的构造使人一开始十分疑惑。事实上,这样的构造方式可以起到加速效果。而且画图有助于理解。(在树中插入she和her,之后去匹配sher,十分清楚)。

先去吃饭。

    原文作者:算法
    原文地址: https://www.twblogs.net/a/5bde38582b717720b51bab3c
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注