algorithm – 从片段集中推断适配器序列

我有一组使用特定衔接子片段从DNA测序产生的字符串.这意味着S中的所有字符串都包含一个后缀,该后缀大致匹配(由于排序错误)适配器序列的前缀.如果仅使用集合S,我怎样才能推断出用于生成S的最可能的适配器序列?

集合S非常大 – 大约100万个片段,每个片段的长度为50个字符.我知道在集合S上构建一个通用后缀树将极大地帮助解决这个问题,但我不确定用于查找最可能的适配器序列的方法.

最佳答案 也许这将满足您的需求:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0164228

点赞