c# – 文本中的异常

让我举个例子来解释一下.

我们有以下文字:

“Comme Il Faut成立于1927年.烟草公司以其为全球合作伙伴生产定制自有品牌的声誉而闻名.”

这是正常的文字.但是以下文字:

“CommeIlFaut于1927年成立.这家烟草公司最为人所知的是为全球范围内的合作伙伴生产定制的私人品牌

这是文本异常:拼写错误,没有空格的单词,也许是别的东西.

如何搜索这样的异常?
有什么算法(统计)?

期望结果是百分比:例如,80%的异常.

谢谢.

最佳答案 使用字典中的所有已知单词构造一个
Trie树.

记下文本中的每个单词并尝试在Trie树中找到它.如果你没有找到它,那么尝试匹配length-k的前缀.如果找到匹配项,则对其余的k字符应用相同的过程.它是递归的,它可以捕获超过两个连接的单词

点赞