动态规划-最短编辑距离变形----DNA对比问题

问题描述:
脱氧核糖核酸即常说的DNA,是一类带有遗传信息的生物大分子。它由4种主要的脱氧核苷酸(dAMP、dGMP、dCMT和dTMP)通过磷酸二酯键连接而成。这4种核苷酸可以分别记为:A、G、C、T。
DNA携带的遗传信息可以用形如:AGGTCGACTCCA…. 的串来表示。DNA在转录复制的过程中可能会发生随机的偏差,这才最终造就了生物的多样性。
为了简化问题,我们假设,DNA在复制的时候可能出现的偏差是(理论上,对每个碱基被复制时,都可能出现偏差):
  1. 漏掉某个脱氧核苷酸。例如把 AGGT 复制成为:AGT
2. 错码,例如把 AGGT 复制成了:AGCT
3. 重码,例如把 AGGT 复制成了:AAGGT
如果某DNA串a,最少要经过 n 次出错,才能变为DNA串b,则称这两个DNA串的距离为 n。
例如:AGGTCATATTCC 与 CGGTCATATTC 的距离为 2
你的任务是:编写程序,找到两个DNA串的距离。
【输入、输出格式要求】
用户先输入整数n(n<100),表示接下来有2n行数据。
接下来输入的2n行每2行表示一组要比对的DNA。(每行数据长度<10000)
程序则输出n行,表示这n组DNA的距离。
例如:用户输入:
3
AGCTAAGGCCTT
AGCTAAGGCCT
AGCTAAGGCCTT
AGGCTAAGGCCTT
AGCTAAGGCCTT
AGCTTAAGGCTT
则程序应输出:
1
1
2

分析:
首先,看到这篇题目,如果之前有涉猎过ACM的话,应该很容易想到用动态规划来解决。如果你不知道动态规划是什么,还是建议你百度一下“动态规划”了解一下,这里不做介绍。
先做一些约定:
①、第一个DNA串表示为数组A[1…n],第二个DNA串表示为数组B[1…n]。
问题转化:
原问题相当于,给定两个数组A[1…n],B[1…m],要求的是B[1…m]变为A[1…n](通过增加一个字符,删除一个 字符,改变一个字符)至少需要多少步?
设计状态:
我们可以用定义一个二维数组dp[i][j]表示状态,dp[i][j]表示A[1…n]的子串A[1…i]和B[1….m]的子串B[1…j]的最短距离,即B[1…j]需要经过多少次操作(增、删、修改)可以变为A[1..i]。
状态转移方程:
有三种情况可以导致我们上面设计的状态会发生转移。我们现在来看A[i] 和 B[j] ,①、我们可以在B[j]后面插入一个核苷酸(即一个字符)ch,ch==A[i],这样做的话,至少需要dp[i – 1][j] + 1步操作,即dp[i][j] = dp[i – 1][j] + 1。②、我们可以删除B[j],这样的话,B[1…j] 变为A[1…i] 需要dp[i][j – 1]步,即dp[i][j] = dp[i][j – 1] + 1。③、我们也可以考虑修改B[j],使它变为A[j],但是如果B[j]本来就等于A[i]的话,那修改其实相当于用了0步,如果B[j] != A[i] 的话,那修改相当于用了1步。所以dp[i][j] = dp[i – 1][j – 1] + (A[i] == B[j] ? 0, 1)。
决策:
决策就很简单了,从上面三种状态转移中选择一个最小值就可以了。
处理边界:
处理好边界非常重要,这里需要注意的是对dp[0][0….m],dp[0…..n][0]的初始化,可以这样看,dp[0][i],就是说A[1…n]是一个空串,而B[1…m]十个长度为i的串,很显然B串变为A串就是删除i个核苷酸。dp[0….n][0]怎么初始化,大家自己想一想吧,道理是一样的。

代码:

import java.util.Scanner;

public class DNA {
     static  int n;
    public static void main(String[] args) {
        Scanner scanner=new Scanner(System.in);
        n=scanner.nextInt();
        scanner.nextLine();//保证输入格式


        while(n-->0)
        {
            String string1=scanner.nextLine();
            String string2=scanner.nextLine();

            int i=string1.length();
            int j=string2.length();

            int[][]dp=new int[i+1][j+1];

            for(int k=0;k<=i;k++)
                dp[k][0]=k;
            for(int k=0;k<=j;k++)
                dp[0][k]=k;



            for(int k=1;k<=i;k++)
            {
                for(int l=1;l<=j;l++)
                {

                    if(string1.charAt(k-1)==string2.charAt(l-1))
                    {
                        dp[k][l]=dp[k-1][l-1];//不变
                    }
                    else{

                        dp[k][l]=min(dp[k-1][l],dp[k][l-1]);
                        dp[k][l]=min(dp[k][l], dp[k-1][l-1]);

                        dp[k][l]++;
                    }
                }
            }

            System.out.println(dp[i][j]);


        }

    }

// AGCTAAGGCCTT
// AGCTAAGGCCT
// AGCTAAGGCCTT
// AGGCTAAGGCCTT
// AGCTAAGGCCTT
// AGCTTAAGGCTT

    private static int min(int i, int j) {
        return i<j?i:j;
    }

}
    原文作者:动态规划
    原文地址: https://blog.csdn.net/yyl424525/article/details/64122935
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞