为什么不是最长的常见子串解决方案？

2019年8月4日 198次阅读

我正在阅读有关词汇的问题,这是将词汇与共同词根相匹配的问题,似乎是搜索引擎中的标准问题.

当我第一次想到这个问题时,我认为这是应用于N个单词的最长公共子串问题的经典应用.

例如.对于单词{calculation,compute,computers},最长的公共子字符串是compute,这是词干/根.

但我读到这不是问题的解决方案.实际上它是
seems,这甚至不是一个考虑因素和其他方法(后缀删除,随机等)是标准的解决方案.

我的问题是：为什么不是N个字的最长公共子串解决这个问题？

最佳答案在许多语言中,语言词干通常不是常见的子串.例如,动词“to be”在许多语言中都是非常不规则的.

即使是英语名词,也有例如{index,index,indices}等特殊例子.你真的想用“索引”作为词干;如果你使用更短的“ind”作为词干,你将会发生碰撞,在这种情况下,独立的政治家将他们的缩写政党称为“ind”.