zz http://blog.csdn.net/wuzhekai1985
这几天在网上看到一篇关于算法面试题的博客,归纳的很好,有不少经典的题目,大部分来自《编程珠玑》、《编程之美》、《代码之美》三本书。这里给出书上的解答以及一些思考。如有不对的地方,希望得到高手的指点。
【一】 时间受限
大部分的面试题,都是对时间复杂度有所要求的,如果有涉及,“最快”一类的字样,毫无疑问,先上时空原理,用空间来换时间。Hash,大数组,一些辅助性的空间,都是首选。在我的面试经历中,有无数次用到过Hash和大数组的。不过,通常这不会是面试官想听的唯一解法,他们紧接着十有八九是会说“如果只有xxxx空间呢?”。说此类方法只是为自己争取更多的时间,并且体现思考的完整性,简而言之,装B用。。。
eg1.1:求一个char(8bit)中,二进制1的个数,越快越好。 — 《编程之美》
编程之美上提供了五种方法,(1)使用除法操作 (2)使用位操作 (3)在位操作的基础上改进,算法的复杂度只于1的个数有关 (4)使用分支操作 (5)查表法。
第2种方法用的是位运算,比第一种方法高效很多。第3种方法非常有技巧。第4,5两种方法其实是用空间换时间,但是如果是一个int(32bit),那么这两种方法就不适用了。方法3的代码
int Count(BYTE v) {
int num = 0;
while( v ) {
v &= ( v – 1 );
num++;
}
}
eg1.2:有一个整数数组A[N],让你不用除法,求另一个数组B[N],其中B[i] = A[0]*A[1] … * A[N-1] / A[i],期望复杂度是O(N)。 — TopLanguage
利用两个辅助数组C[N],D[N]完成,其中C[i] = A[0]*A[1]*…A[i-1]*A[i], D[i]=A[i]*A[i+1]*…A[N-2]*A[N-1],B[i] =C[i-1] *D[i+1]
【二】 空间受限
这里的空间受限,指的是在大数据分析的逻辑下,空间受限的问题。大部分情况下,就是压缩。位图是一个很好的方法,用一个bit(或几个)取代更大的int类型,最常见的位图是1bit 取代 1int,其实,很多时候,1bit可以取代更大的空间,这完全取决于你需要保留的信息。。。
eg2.1:有一个很大的文件,存放一堆7位的电话号码,号码无重复,请用最小的内存消耗,将其排序。 — 《编程珠玑》
利用位图技术实现。每一个号码如果用一个int存储,那么需要40MB ( (10^7*4)/10^6 MB),如果用位图技术,则只需用1位来存放1个号码,需要1.25MB( ( 10^7/8)/10^6 MB)
每个号码对应位图的一位,位图初始全清零,读入一个号码就把相应的位置位,遍历后按位图顺序输出对应的数字。
eg2.2:给10MB的内存,给一个4百万整数的文件,找一个不在文件中的整数。
可以用10MB内存来存放 0 到(8*10^7-1)范围数的出现情况。扫描文件一遍,将该范围中相应的位置位,超出范围的数简单丢弃。然后遍历位图,找到第一个为0的位即可,位图中肯定有未置位的位。
扩展1 :给10MB的内存,给一个40亿整数的文件,找一个不在文件中的整数。
同样可以用上述的方法,不过可能需要多遍扫描。因为文件中的整数是多于 8*10^7,第一遍扫描后,位图的所有位都可能被置位。如果出现这种情况,那么用10MB内存存放 (8*10^7)到 (16*10^7-1)范围数的出现情况,再次尝试。平均性能几乎是扫描1次。
扩展2 :给10MB的内存,给一个40亿整数的文件,找一个不在文件中的整数。只能扫描文件1遍
暂时未想到确定性的算法,这里给出一种近似的方法。随机生成200万个数,然后排序。扫描文件1遍,把文件中出现的对应数删除,比如200万个随机数中有5,而文件中也有5,那么把随机数5从数组中删除(简单置为-1即可)。最终随机生成的200万个数中会剩余 (2*10^6) * ( 1 – (4*10^9)/2^32) ,取其中的任意一个即可。几乎不会失败。
【三】 基于文件
越来越多的大公司,开始关系对文件的处理,上面所说的空间受限的问题,其实也基本都是和文件打交道。基于文件的处理,基本都是寻找,或者排序,最最核心的,就是减少文件读取的次数。除了位图法,还可以考虑哨兵,典型的案例就是外排中,增加单个文件大小的方法。
eg3.1:给定一个包含4300000000个32位整数的顺序文件,找到一个至少出现两次的整数。 — 《编程珠玑》
思路1:如果内存不受限,用位图技术,必有2个数会落到同一位中,其实是运用了鸽巢原理。32位整数能表示的最大数为4294967295,小于43亿。
思路2:如果内存受限,采用二分搜索法。由于4.3G>32位的整数空间,根据鸽笼原理,肯定会有重复的整数。搜索范围从所有的32位正整数开始(全部当成unsigned int,简化问题),即[0,2^32),中间值即为2^31。然后遍历文件,如果小于2^31的整数个数大于2^31,则调整搜索范围为[0,2^31],反之亦然;然后再对整个文件再遍历一遍,直到得到最后的结果。这样一共会有logn次的搜索,每次过n个整数(每次都是完全遍历),总体的复杂度为o(nlogn)
eg3.2:有一个文件,有很多很多的整数(也许有100亿),寻找其中最大的K个。 — 《编程之美》
列举几种解法
解法1:如果元素不是很多,用快速排序,然后遍历找到最大的K个。总的时间复杂度为 O(N logN) + O(K)
解法2:找K个数中最小的那个,就是第K大的数。利用二分搜索找到第K大的数,然后在遍历。总的时间复杂度为 O(NlogN)
解法3:如果数据不能全部装入内存,上面两种方法不是很好。可以利用堆排序,即维护一个K个元素的最小堆即可。每次新考虑的一个数,如果比堆的最小数还要小,丢弃;如果比堆的最小数要大,那么替换最小元素,然后调整堆。时间复杂度为 O(N logK)
解法4:如果数据的范围有限,可以利用计数法,即扫描文件一遍,记录每个整数出现的次数,然后再从大到小取最大的K个即可。时间复杂度为O(N)
【四】 常见方法
你需要相信,面试官也是人,他不会有心情花30分钟给你描述一个问题,或者让你做50页纸的推导,考算法的目的只是为了你的思维能力,而不是真的想让你搞定一个复杂的问题。大部分问题,都是有比较快速清晰的解决方法的。。。
1. 分治法 这绝对是你必须考虑使用的一种方法,如果有可能的话。动态规划这东西,在面试的时候比较沉重,不好描述,不好书写,而分治却刚刚好,美丽,快捷,易书写,是面试官杀人越货的首选武器。分治的用法实在是太多了,几乎是无所不在,二分,快排,种群计数,各个唯美无比。。。
eg4.1:给你一个长度为N的整数数组,请找出最大的子数组和。 — 《编程之美》
这一题其实可以用动态规划解决。定义两个辅助数组Start [N] 和 All [N] ,Start [i] 表示从元素i开始,包含元素i的最大的一段连续数组和。All[i] 表示从元素i开始,最大的一段连续数组和。All[0] = max { A[0], A[0]+Start[1], All[1] } 可以很方便的用动态规划解决。
int MaxSum(int *A, int n) {
All[n-1]=Start [n-1]=A[n-1];
for(int i=n-2;i>=0;i–){
Start[i]= max( A[i], A[i]+Start[i+1] );
All[i]=max( Start[i], All[i+1] );
}
return All[0];
}
如果要求返回最大子数组的位置,可以在循环中记录一下。算法还是能保持O(N)的时间复杂度的。
eg4.2:求一个int(32bit)中,二进制1的个数。 — 《代码之美》
可以参考eg1.1的方法1、方法2、方法3
2. 排序和查找 排序出现的次数实在是太多了,很重要的一点,排序的东西才能用二分。二分是如此好用,以至于我们总是想着排序。查找和排序总是紧密联系的,当然,仅仅是为了查找,做一次排序,你需要衡量一下代价。。。
eg4.3:有一个论坛,有ID发帖数目超过总数的一半,给你论坛所有帖子的ID列表,请你找到这个水王。 — 《编程之美》
解法1:先将ID排个序,然后取中间位置的那个ID即可。
解法2:每次删除不同的ID,最后剩下的ID即为所求。
扩展1:如果有3个发帖很多的ID,并且发帖的数目都超过了总数N的1/4,找到这3个ID。
可以用类似的解法,维护3个候选者。对于新ID,检查3个候选者的出现次数。如果次数有0,那么将该候选者设置为新ID,并且把次数加1;如果次数都是大于0,并且新ID等于其中的一个候选者,那么将该候选者的出现次数加1;如果次数都是大于0,并且新ID不等于三个中的任意一个,那么将三个候选者的出现次数各减少1次。最后剩下的3个ID即为所求。
eg4.4:给一组一维的空间 [1, 6] [2, 4] … ,请求是否有区间重叠。 — 《编程之美》
解法:将目标区间按X坐标排序,然后合并相交区间,最后扫描一遍合并后的区间,检查源区间是否在其中一个目标区间中。最后一步也可以利用二分查找。
3. 减小问题规模 很多时候,题目看上去很吓人,仔细分析一下,就可以刨去其中大部分的无关内容,获得真正的出题意图,这一点很重要。另外有些时候,题目会在空间上做出一些限制,这个时候,你可以考虑动态的对数据规模进行缩减,比如用减法或除法抵消,用抑或抵消,等等。。。
eg4.5:给一个整数N,求它的阶乘N!,有几个0结尾。 — 《编程之美》
解法:0的出现是因为2*5带来的,因此只要计算min( 2的个数, 5的个数)即可。又由于2的出现频率大于5,只要求5的个数即可
eg4.6:盒子里有三种颜色的球,红黄蓝,可以用任意两个不同颜色的球,换两个另外颜色的球,比如1红 + 1黄 = 2蓝。现在盒子里面有171个红球,172个黄球,173个蓝球,问,能不能经过若干次交换,最终变成同一颜色的球。 — TopLanguage
猜测:不能,最多只能是某种颜色0个,另一种1个,其余是第三种颜色。
eg4.7:有一组数,除了一个数只有1个,其他都是两两成对的,请找出那一个不成对的数。另,如果不成对的数有两个,该如何是好。
解法:如果只有1个,可以将所有数做异或运算,最后的结果就是要找的数。如果是2个,那么先将所有数做异或运算,得到一个数,然后找到这个数的其中一位非0 bit,利用这一位将这组数分成两部分,不成对的两个数不会在同一部分,然后对这两个部分分别调用只有1个情况的算法即可。
4. 常量法 典型的速餐方法,它的思想是,一组数,在某些情况下,和一定,通过这个常量,进行反推,可快速搞定一些问题。。。
eg4.9:有一副扑克牌(你可以用任意方式来表示),被抽去一张,请快速找出这抽去的一张是什么? — 微软面试题
解法:算一下目前牌的数值总和x,原来完整的总和是y,则丢掉的牌是y-x。
5. 编码 编码真是个好东西,它可以将复杂的问题抽象化。比如,对一个序列进行编码,可以直接映射到数组脚标上,大大提高访问速度。。。
eg4.10:最近一次百度笔试题 eg4.11:有1000瓶超级名贵的葡萄酒,其中有1瓶有毒。这种毒药很厉害,哪怕被稀释了1000000倍还是可以毒死人的。但这个毒药一定时间后才会毒发,时长是1个月。为了不浪费这些葡萄酒,有1000个壮士决定花5周的时间将毒酒找出,他们只希望最多有10个人牺牲,你需要如何安排才能实现。 — TopLanguage
待解答
6. 概率 不要轻视概率题,哪怕是最基本的概率常识。概率题之所以被青睐,因为它们往往违背直觉,容易让人陷入迷茫,这种场面是面试官喜闻乐见的。我曾经在baidu面试中,被一道简单的概率题,调戏的脸面全无,至今想起,仍然是汗流满面。所以,为了人身安全,复习一下概率的基本知识吧。。。
eg4.12:有一个长度为N的链表,N未知。希望你只遍历一次链表,就从链表中等概率的挑出K个数。 — TopLanguage
某博客的解法,非常好 http://blog.csdn.net/potty15/article/details/6221715
a:首先挑出前k个数,保存在pick[1…k]中,然后从第k+1个开始遍历
for i = k+1 to N do //这里N不知道,但是可以用链表->next == null 来判断是否到达链表末尾。
r = random(1, i);
if (1 <= r <= k);
pick[r] = i;
简单数学证明如下:
归纳法,算法刚开始,对于前k个数被选中的概率都为1,,不失一般性,选择其中的第j个来讨论,
i = k+1轮:
random(1, i)返回值为j的概率为1/k+1,所以j保留下来的概率为k/k+1
i = k+2轮:
random(1, i)返回值为j的概率为1/k+2,所以j保留下来的概率为(k/k+1) * (k+1/k+2) = k/k+2
…
i = N轮
random(1, i)返回值为j的概率为1/N,所以j保留下来的概率为(k/k+1) * (k+1/k+2)*….* (N-1/N) = k/N
对于第k+1到第N个数,选择其中的数m来讨论,
当i = m时:
random(1, i)返回值在[1, k]内的概率为k/m,所以j保留下来的概率为k/m,设m保存在第s位
i = m+1轮:
random(1, i)返回值为s的概率为1/(m+1),所以j保留下来的概率为(k/m) * (m/m+1) = k/(m+1)
…
i = N轮
random(1, i)返回值为s的概率为1/N,所以j保留下来的概率为(8/m) * (m/m+1) *….* (N-1/N) = k/N
得证。
【五】 加速方法
很多时候,你给的算法基本正确,但是还不够优秀。面试官会希望你优化一下。优化的方法有很多,就基本的思路就是,考虑一下到底哪里出现了浪费。常见的浪费有两种,一种是用了比较沉重的运算,比如除法、取模等,你可能需要为计算来加速。另外有时候,你的算法还太粗线条,比如只需要符号,你却计算了总数等等。。。
eg5.1:求两个数的最大公约数。 — 《编程之美》
解法1:利用的原理 f( x, y) = f(y, x%y) ,即辗转相除法
解法2:利用的原理 f(x , y) = f( y, x-y),即辗转相减法
解法3:根据两个数的奇偶性
x is even, y is even f(x, y) = 2 * f( x>>1, y>>1)
x is even, y is odd f(x,y) = f( x>>1, y)
x is odd, y is even f(x,y) = f( x, y>>1)
x is odd, y is odd f(x,y) = f(y, x-y)
eg5.2:有一个整数数组A[N],求其中任意N-1个数的最大乘积。 — 《编程之美》
解法1:利用eg1.2的算法,计算出所有可能的N-1个数的乘积,然后遍历一遍找出最大的乘积。
解法2:利用N个数的正负分布情况。先扫描一遍,统计处数组中正数个数p,负数个数n,零的个数z,绝对值最小的正数a 和负数 b。
如果 z >=2 结果为0
如果 z =1
如果n为odd 结果为0
如果n为even 结果为除0外的乘积
如果 z =0
如果n为odd 结果为去掉绝对值最小负数后的乘积
如果n为even 结果为去掉绝对值最小的正数的乘积
eg5.3:估计一下快速排序的比较次数。 — 《代码之美》
解法:
int cc(int n){
int m;
if (n <= 1) return 0;
m = randint(1, n);
return n-1 + cc(m-1) + cc(n-m);
}
【六】 数据结构
大部分面试时候,我们都是面向数组来设计算法,因为简单变化多,面试官好把握。但其他数据结果,同样也很重要。AVL,B树那样的可能比较复杂,但是链表、树这样的结构,也经常出没,我个人就碰见多次。。。
1. 链表 eg6.1:给你一个单链表的头指针,在不使用大量附加数据或修改原有数据的前提下,检查一个单链表是否有环。 — 微软面试题
解法:使用快慢两个指针,慢指针p = p->next,快指针q = q->next->next,如果相遇,那么就有环。
eg6.2:给你两个链表,如何判断其是否相交,如果相交,如何找到两个链表的第一个交点。 — 《编程之美》
解法:2个链表都遍历到尾部,即p->next==null && q->next==null,然后判断p == q。
eg6.3:只给你一个指向链表中某元素的指针,请删除该元素。 — 《编程之美》
解法:将后一个元素复制到当前元素p->value = p->next->value,然后删除后一个元素。
2. 树 eg6.4:写堆排序的算法
一般算法书上都有的,这里就不列了
eg6.5:判断一棵二叉树T中,是否包含另一颗二叉树P的结构。 — 微软面试题
待解答
以上一些内容,只是管中窥豹而已。题目来源主要是一些快餐式的书和论坛,包括《编程之美》《代码之美》《编程珠玑》,其中特别推荐,TopLanguage Group的“今天我们思考”专辑。快餐吃多了总会不营养的,需要慢条斯理的按食谱吃点营养大餐才能真正的强身健体,比如高大爷的圣经,《算法导论》,还有,波利亚的《怎样解题》。