两个字符串的编辑距离即为两个字符串s1, s2经过插入、删除和替换操作使得第一个字符串s1与第二个字符串s2相同所需的最短操作次数。(s1字符个数为m, s2字符个数为n)
利用动态规划的方法,考虑从字符串的最后一个字符开始进行推导,当最后一个字符相同时,此时问题即为求s1[:m-1]与s2[:n-1]的编辑距离;而若最后一个字符不相同时,可以考虑三种情况:1、在s1最后插入s2的最后一个字符,此时问题转化为s1[:m]与s2[:n-1]的编辑距离;2、删除s1最后一个字符串,此时问题转化为s1[:m-1]与s2[:n]的编辑距离;3、替换s1最后一个字符为s2的最后一个字符,此时问题转化为s1[:m-1]与s2[:n-1]的编辑距离。可以看出上面的思想即为动态规划的子问题的思想。以下利用python完成计算字符串的编辑距离。
# 计算编辑距离 def EditDistDP(s1, s2): # change s1 to s2, use min steps # return the number of steps m = len(s1) n = len(s2) distance_list = [[0 for _ in range(n+1)] for _ in range(m+1)] for i in range(m+1): for j in range(n+1): if i == 0: distance_list[i][j] = j elif j == 0: distance_list[i][j] = i elif s1[i-1] == s2[j-1]: distance_list[i][j] = distance_list[i-1][j-1] else: distance_list[i][j] = 1 + min(distance_list[i][j-1], distance_list[i-1][j], distance_list[i-1][j-1]) return distance_list[m][n]
例如计算EditDistDP(‘sunday’, ‘saturday’) output: 3