读双数组Trie树算法优化

2023年6月4日 358次阅读来源: Trie树

以前，做过一个翻译的程序，处理的只是英文字符，当时做的，构造了一个26叉树（26个英文字母，每一个字母对应一个树结果），当时也不知道这对应的数据结构术语是什么？后来一个巧合的机会知道了Trie树数据结构，发现我以前做的那个26叉树不就是一个Trie树吗？其实对英文字符来说，构造一个26叉树也行，占用的空间也不是很大。但是针对汉语词典（6763个常用汉字），这个就有问题了，需要一个好的对Trie树的实现方式。这样，双数组Trie树就随之产生了，这个实现方式，构造两个数组，base[], check[]数组。base数组的每个元素对应一个Trie树的节点，他的值作为状态转移的基值，check数组记录校验值，检验状态的存在性。汉字的编码如GB2312编码，采用区位码，两个字节。汉字的偏移序列码可以采用这个汉字在GB2312编码表中汉字的序列号。

整个算法过程，分两步：（1）构造base，check数组；（2）搜索。

具体情况可以参考中科院张华平的《双数组Trie树算法优化及其应用研究》，里面关于base，check数组构造说的很清楚，这个得好好看看，那个搜索环节很简单。我的一个疑惑：算法里面没有提及好的解决冲突方法，算法的言下之意就是经过优化后，冲突似乎可以避免了？这个不切实际吧！当数据量很少的时候，他这个算法的确能做到，但是一旦数据量很大的话，他如何保证，当前节点的所有子节点都能在base中找到空位置？即使能找到，设定这个当前节点的base值也得花很长时间。

个人觉得，还个算法还是有不足的地方，需要完善，比如冲突如何解决？

    原文作者：Trie树
    原文地址: https://blog.csdn.net/hero_fantao/article/details/7576123
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。