字典树构造及其优化与应用
字典树的核心就是空间换时间,利用字符串的公共前缀来避免无谓的字符串比较,降低查询时间。
Trie树的平均高度h为单词平均长度len,所以Trie树的查询复杂度为O(h)=O(len)
查询效率比哈希表高,对于统计/查询单词的问题,可将哈希表改进为字典树提升效率。
性质:
– 根结点不包含字符,除了根结点每个结点都包含一个字符
– 从根结点到某一结点的路径经过的字符连接起来就是该结点对于的字符串
– 查询和建树可以同时进行
例:
有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。
思路:首先要求得每个词的频率,1G无法放入内存,需要分成多个小文件,对每个小文件的词进行统计
(1)散列分治:顺序读取文件,对每个词,可以hash(x)P00(只要不小于1024个文件,是为了保证每个小文件可以放入内存), 这样被映射为5000个小文件,每个文件大概200K,每个文件最少1250个单词
(2)对于每个小文件,利用hash_map/字典树记录每个单词出现的频率,
(3)用100个元素的最小堆,选出每个文件中的频率最大的100个单词
(4)对这5000个小文件进行归并排序,选出最大的100个。