python – 我可以通过匹配键作为前缀在字典中保留新单词

我有一本字典说,

stringToListDict = {'foo' : [], 'bar' : []}

现在让我们说

 foofoo

stringToListDict = {'foo' : ['foofoo'], 'bar' : []}

 BARBAR

stringToListDict = {'foo' : ['foofoo'], 'bar' : ['barbar']}

 foob​​arbar

stringToListDict = {'foo' : ['foofoo', 'foobarbar'], 'bar' : ['barbar']}

 notMatchingAnyKey

Simply discard this new string.

正如您所看到的,添加的字符串通过匹配键作为前缀.

我可以通过遍历每个键一个字典直到我得到一个匹配的前缀来做到这一点.但是还有其他优雅或有效的方法吗?您不必担心边缘情况,例如:如果出现以下情况:

stringToListDict = {'foo' : ['foofoo'], 'foobar' : [], 'bar' : ['barbar']}

then +foobarbar

仅供参考,这不是作业.

最佳答案 如果您正在使用dict,那么是的,您将必须迭代所有键以找到任何匹配. Dicts基于哈希表构建,并且哈希函数没有任何“开始于”或“关闭”的概念以利用(事实上,它们专门设计用于为关闭输入提供非常不同的输出).

做你想做的事并不难:

for k, v in d.items():
    if s.startswith(k):
        v.append(s)
        break
else:
    # whatever you want to do if no prefix exists

但是如果dict很大,那么效率很低,因为你正在进行线性搜索.

您可以使密钥的长度成为线性,而不是字典的长度(在测试用例中实际上会更慢,但在性能很重要的大多数情况下可能更快):

for i in range(len(s), 0, -1):
    try:
        d[k[:i]].append(s)
        break
    except KeyError:
        pass
else:
    # whatever you want to do if no prefix exists

但是,如果您需要最佳效率,您需要查看对数数据结构,如平衡二叉搜索树,b树,跳转列表,trie,甚至只是按排序顺序保存的普通旧列表.您可以在PyPI或ActiveState配方存储库中找到的此类类型的大多数实现都有一个方法来按排序顺序查找键的插入位置.或者,如果您使用的是普通旧列表,只需使用stdlib中的bisect模块即可.只需在插入位置之前检查密钥,然后从密钥开始,或者什么也不做.

例如,使用sortedcontainers.SortedDict

i = d.bisect(s)
if d.iloc[i].startswith(s):
    d[d.iloc[i]].append(s)
else:
    # whatever you want to do if no prefix exists

如果你有一个庞大,密集的密钥集,并且你正在进行大量的查询和插入,那么前缀trie可能是最有效的.但是对于不同的特征,其他人可能会胜出.所以,如果这很重要,你会想尝试一些并进行测试.

点赞