基于Trie树的拼音切分算法
Trie树也叫做单词查找树,是一个非常有效的索引结构,trie是由retrieval演化而来的。具体介绍请参看–> [ 维基百科 ]
Trie树结构的简单说明
Trie树是一个度m>=2的树,它的根节点不包含任何字符元素,除根节点外的其他节点都包含且只包含一个字符元素。从根节点到某一节点的唯一路径上的所有字符组成的字符串尾该节点对应的字符串。在拼音切分中,每一个节点有26个孩子节点,对应26个英文字母。
通过Trie树的搜索可以深入理解递归。不过这并不是很好的一种方式,属于暴力搜索,时间复杂度为O(n^2)。
代码:
#include <iostream>
#include <conio.h>
using namespace std;
char stc[20];
int last = 0;
char* Stc[20];//主函数中需要初始化Stc[0]为s-1
int Last = 1;
typedef struct trietree{
int flag;
char data;
trietree* children[27];
}*node, *trie;
void MakeNull(trie &r)
{
if(r)
for(int i=1;i<=26;i++)
r->children[i-1] = NULL;
r->flag = 0;
r->data = 0;
}
bool Empty(trie r)
{
if(r != NULL)
return false;
return true;
}
void AddNode(node &n, int i)
{
if(n->children[i-1])
return;
n->children[i-1] = new trietree;
MakeNull(n->children[i-1]);
n->children[i-1]->data = i+96;
}
void AddPinYin(trie &r, char s[])
{
int i = 0;
int index;
char c = *(s+i);
node n = r;
while(c != 0){
index = (int)c-96;
if(n->children[index-1] == NULL)
AddNode(n, index);
n = n->children[index-1];
c = *(s+(++i));
}
n->flag = 1;
}
void CreateTrie(trie &t)
{
char str[405][7] = {
"a","ai","an","ang","ao","ba","bai","ban","bang","ibao","bei","ben","beng","bi","bian","biao","bie","bin","bing","bo","bu","ca","cai","can","cang","cao","ce","cen","ceng","cha","chai","chan","chang","chao","che","chen","cheng","chong","chou","chi","chu","chua","chuai","chuan","chuang","chui","chun","chuo","ci","cong","cou","cu","cuan","cui","cun","cuo","da","dai","dan","dang","dao","de","dei","den","deng","di","dian","diao","die","ding","diu","dong","dou","du","duan","dui","dun","duo","e","ei","en","eng","er","fa","fan","fang","fei","fen","feng","fo","fou","fu","ga","gai","gan","gang","gao","ge","gei","gen","geng","gong","gou","gu","gua","guai","guan","guang","gui","gun","guo","ha","hai","han","hang","hao","he","hei","hen","heng","hong","hou","hu","hua","huai","huan","huang","hui","hun","huo","ji","jia","jian","jiang","jiao","jie","jin","jing","jiong","jiu","ju","juan","jue","jun","ka","kai","kan","kang","kao","ke","ken","keng","kong","kou","ku","kua","kuai","kuan","kuang","kui","kun","kuo","la","lai","lan","lang","lao","le","lei","leng","li","lia","lian","liang","liao","lie","lin","ling","liu","long","lou","lu","lv","luan","lve","lun","luo","ma","mai","man","mang","mao","me","mei","men","meng","mi","mian","miao","mie","min","ming","miu","mo","mou","mu","na","nai","nan","nang","nao","ne","nei","nen","neng","ni","nian","niang","niao","nie","nin","ning","niu","nong","nou","nu","nv","nuan","nve","nuaio","o","ou","pa","pai","pan","pang","pao","pei","pen","peng","pi","pian","piao","pie","pin","ping","po","pou","pu","qi","qia","qian","qiang","qiao","qie","qin","qing","qiong","qiu","qu","quan","que","qun","ran","rang","rao","re","ren","reng","ri","rong","rou","ru","ruan","rui","run","ruo","sa","sai","san","sang","sao","se","sen","seng","sha","shai","shan","shang","shao","she","shei","shen","sheng","shou","shi","shu","shua","shuai","shuan","shuang","shui","shun","shuo","si","song","sou","su","suan","sui","sun","suo","ta","tai","tan","tang","tao","te","teng","ti","tian","tiao","tie","ting","tong","tou","tu","tuan","tui","tun","tuo","wa","wai","wan","wang","wei","wen","weng","wo","wu","xi","xia","xian","xiang","xiao","xie","xin","xing","xiong","xiu","xu","xuan","xue","xun","ya","yan","yang","yao","ye","yi","yin","ying","yong","you","yu","yuan","yue","yun","za","zai","zan","zang","zao","ze","zei","zen","zeng","zha","zhai","zhan","zhang","zhao","zhe","zhei","zhen","zheng","zhong","zhou","zhi","zhu","zhua","zhuai","zhuan","zhuang","zhui","zhun","zhuo","zi","zong","zou","zu","zuan","zui","zun","zuo",
};
for(int i=0; i<=404; i++)
AddPinYin(t, &str[i][0]);
}
/*** 利用数组模拟栈进行DFS切分字符串 ***/
void DfsCut(trie t, char s[])
{
int i = 0;
char c = s[i];
int index = c-96;
node n = new trietree;
MakeNull(n);
if(t->children[index-1])
n = t->children[index-1];
while(c){
if(n == NULL)
break;
if(n->flag == 1){
Stc[Last++] = s+i;
DfsCut(t, s+i+1);
Last--;
}
c = s[++i];
index = c-96;
if(n->children[index-1])
n = n->children[index-1];
else{
break;
}
}
if(c==0 && i==0){
for(int i=0; i<Last-1; i++){
for(char* dr=Stc[i]+1; dr<=Stc[i+1]; dr++)
cout<<*dr;
if(i != Last-2)
cout<<"'";
}
cout<<endl<<"-----------"<<endl;
}
}