给定一个字符串,找到包含该字符串所有字符的最短子串

转自:https://blog.csdn.net/yahohi/article/details/7906833

 

题目:

给定一个字符串及一个字符串集合A,求该字符串中包含A中所有字符的最短子串长度。

 

解决方案一:

最直接的方法就是,直接开始遍历:查找任意两个子串之间是否包含str2,如果包含,记录下长度,求得最小值即可。

str1 = “daebfacba”;

str2 = “abc”;

minLen = len(str1);

for i = 0:len(str1)

    for j = i+1:len(str1)

        if (isContainAllElements(str1,str2,i,j)) //如果i到j的子串包含所有字符,则记录长度

            if j-i < minLen

                minLen = j-i;

考虑isContainAllElements(),复杂度为O(n3)。

 

解决方案二:

为str2中的每一个字符设置一个变量,用来存储最新的在str1中出现的位置。用H(x)来表示该数值。

以“daebfacba”为例,

1. 扫描到第一个a时,H(a)=1; H(b),H(c)无值;

2. 扫描到第一个b时,H(a)=1; H(b)= 3,H(c)无值;

3.扫描到第二个a时,由于C还无值,因此,直接覆盖a的值:H(a)=5; H(b)=3,H(c)无值;

4. 扫描到第一个c时,H(a)=5; H(b)=3,H(c)=6,此时计算一次距离,即用最大值减去最小值为3;

5.继续扫描,到第二个b时,H(a)=5; H(b)=7,H(c)=6,此时距离为7-5=2;

6.继续扫描,到第三个a时,H(a)=8; H(b)=7,H(c)=6,此时距离为8-6=2;

则最小值为2.

 

该算法复杂度O(n)。

该算法中,在所有字符对应位置未全找到时可以直接覆盖,能否覆盖的简单可行性论证如下:

假设a出现两次,b和c有三种相对位置可以出现:

(1)a … b … a … c…

此时,第二个a会覆盖第一个a,但由于c在第二个a后面,因此仅需要计算第二个a就可以了,覆盖是可以的。

(2)a … b…c … a …

此时,两个a都会参与计算,不存在覆盖问题。

(3)a…a…b..c…

此时,显然可见,只需要计算第二个a,覆盖是可以的。

因此,总结一下,覆盖的方法是可行的。

总体思路为:

1. 扫描字符串,如果遇到集合中的字符,则将集合中字符所在位置记录下来

2. 如果所有字符的位置还有未找到的,直接填充或者覆盖;

此时,如果都找到了,则计算距离,并于最短距离进行比较;否则,按照上述规则继续填充;

3. 扫描完字符串即可得到最短子串长度,同时还可以记录下所有字符的位置。

 

解决方案三:

见《编程之美》231页。

主要思想是:采用两个指针

(1)如果两指针之间不完全包含所有元素,后面的指针后移;

(2)如果包含了所有元素,则更新最短子串长度,并记录最短子串起止位置;同时,前面的指针后移。

仔细研究会发现,解决方案三跟方案二其实是一样的思想。

均需要不断监测是否填满,或包含全部元素。

拓展:

题目:

给定一个字符串及一个字符串集合A,求该字符串中包含A中所有字符的最长子串长度(不允许A中的字符在子串中重复)。

例如,“ababcda”,“abc”

思路类似,规则如下:

1. 如果各字符对一个的值未填满时:

(1)当前字符对应值未填,则直接填入;

(2)当前字符对应值已经填充(例如,H(a)=2),则清除a位置2及2之前的已经填充的值,并且重新填入a的值(例如H(a)=4);(因为出现了重复,需要清空前面的)

 

鸣谢:http://blog.csdn.net/yimengqiannian
——————— 
作者:wangicter 
来源:CSDN 
原文:https://blog.csdn.net/yahohi/article/details/7906833 
版权声明:本文为博主原创文章,转载请附上博文链接!

    原文作者:xcw_user
    原文地址: https://blog.csdn.net/xcw_1987/article/details/96148642
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞