我正在尝试找到一种有效的算法来识别重复出现的字符序列.假设序列可以是至少3个字符,但只返回最大长度序列.数据集可能有数千个字符.另外,我只想知道序列是否重复,比方说,3次.
举个例子:
ASHEKBSHEKCSHEDSHEK
“SHEK”发生3次并将被识别. “SHE”出现4次,但未被识别,因为“SHEK”是包含该序列的最大长度序列.
此外,没有“种子”序列被送入算法,它必须自动找到它们.
提前致谢,
Ĵ
最佳答案 看起来像Rabin-Karp
Wiki Entry
我正在尝试找到一种有效的算法来识别重复出现的字符序列.假设序列可以是至少3个字符,但只返回最大长度序列.数据集可能有数千个字符.另外,我只想知道序列是否重复,比方说,3次.
举个例子:
ASHEKBSHEKCSHEDSHEK
“SHEK”发生3次并将被识别. “SHE”出现4次,但未被识别,因为“SHEK”是包含该序列的最大长度序列.
此外,没有“种子”序列被送入算法,它必须自动找到它们.
提前致谢,
Ĵ
最佳答案 看起来像Rabin-Karp
Wiki Entry