【题目】
有很多无序的数,从中找出最大的K个数。假定他们都不相等。
【解法一】
如果数据不是很多,例如在几千个左右,我们可以排一下序,从中找出最大的K个数。排序可以选择快速排序或者堆排序
[cpp]
view plain
copy
- #include<stdio.h>
- #include<stdlib.h>
- intcmp(constvoid*a,constvoid*b){
- return*(int*)a-*(int*)b;
- }
- intmain(){
- intn,k;
- intNum[1000];
- while(scanf(“%d%d”,&n,&k)!=EOF){
- //输入数据
- for(inti=0;i<n;i++){
- scanf(“%d”,&Num[i]);
- }
- //排序
- qsort(Num,n,sizeof(Num[0]),cmp);
- //选出最大的K个数
- for(i=n-k;i<n;i++){
- printf(“%d”,Num[i]);
- }
- printf(“\n”);
- }
- return0;
- }
【解法二】
我们可以继续对上面的算法进行优化,我们只是从这些无序的数中选出最大的K个数,并不需要前K个数据有序,也不需要后N-K个数据有序。
怎样才能避免做后N-K个数据有序呢?
回忆一下快速排序,快排中的每一步,都是将待排数据分做两组,其中一组的数据的任何一个数都比另一组中的任何一个大,然后再对两组分别做类似的操
作,然后继续下去……在本问题中,假设 N 个数存储在数组 S 中,我们从数组 S 中随机找出一个元素 X,把数组分为两部分 Sa 和 Sb。
Sa 中的元素大于等于 X,Sb 中元素小于 X。这时,有两种可能性:
1. Sa中元素的个数小于K,Sa中所有的数和Sb中最大的K-|Sa|个元素(|Sa|指Sa中元素的个数)就是数组S中最大的K个数。
2. Sa中元素的个数大于或等于K,则需要返回Sa中最大的K个元素。
这样递归下去,不断把问题分解成更小的问题,平均时间复杂度 O(N *log2K)。
[cpp]
view plain
copy
- #include<stdio.h>
- #include<stdlib.h>
- //进行一次快速排序用哨兵数分割数组中的数据
- intPartition(inta[],intlow,inthigh){
- inti,j,index;
- i=low;
- j=high;
- //哨兵
- index=a[i];
- while(i<j){
- //从右向左找大于index的数来填a[i]
- while(a[j]<index&&i<j){
- j–;
- }
- //把找到大于index的数赋值给a[i]
- if(i<j){
- a[i]=a[j];
- i++;
- }
- //从左向右找小于index的数来填a[j]
- while(a[i]>=index&&i<j){
- i++;
- }
- //把找到小于index的数赋值给a[j]
- if(i<j){
- a[j]=a[i];
- j–;
- }
- }
- a[i]=index;
- returni;
- }
- intKBig(inta[],intlow,inthigh,intk){
- intindex,n;
- if(low<high){
- //对数组进行划分,返回划分的位置
- index=Partition(a,low,high);
- n=index-low+1;
- //如果等于K返回第K个下标
- if(n==k){
- returnindex;
- }
- //不够K个再找k-n个
- elseif(n<k){
- returnKBig(a,index+1,high,k-n);
- }
- //如果大于K个则从些中选出最大的K个
- else{
- returnKBig(a,low,index,k);
- }
- }
- }
- intmain(){
- inta[]={4,5,1,6,2,7,3,8};
- for(i=0;i<=KBig(a,0,7,6);i++){
- printf(“%d”,a[i]);
- }
- printf(“\n”);
- return0;
- }
【解法三】
用容量为K的最小堆来存储最大的K个数。最小堆的堆顶元素就是最大K个数中的最小的一个。每次扫描一个数据X,如果X比堆顶元素Y小,则不需要改变原来的堆,因为这个元素比最大的K个数要小。如果X比堆顶元素大,那么用X替换堆顶元素Y,在替换之后,X可能破坏了最小堆的结构,需要调整堆来维持堆的性质。调整过程时间复杂度为O(logK)。
当数据量很大时(100亿?这时候数据已经不能全部装入内存,所以要求尽可能少的遍历数组)可以采用这种方法。
[cpp]
view plain
copy
- #include<stdio.h>
- #include<stdlib.h>
- //调整以index为根的子树
- //k:堆中元素个数
- intMinHeap(inta[],intindex,intk){
- intMinIndex=index;
- //左子节点
- intLeftIndex=2*index;
- //右子节点
- intRightIndex=2*index+1;
- if(LeftIndex<=k&&a[LeftIndex]<a[MinIndex]){
- MinIndex=LeftIndex;
- }
- if(RightIndex<=k&&a[RightIndex]<a[MinIndex]){
- MinIndex=RightIndex;
- }
- //如果a[index]是最小的,则以index为根的子树已是最小堆否则index的子节点有最小元素
- //则交换a[index],a[MinIndex],从而使index及子女满足堆性质
- inttemp;
- if(MinIndex!=index){
- //交换a[index],a[MinIndex]
- temp=a[index];
- a[index]=a[MinIndex];
- a[MinIndex]=temp;
- //重新调整以MinIndex为根的子树
- MinHeap(a,MinIndex,k);
- }
- return0;
- }
- //建堆:将一个数组a[1-k]变成一个最小堆
- intBuildMinHeap(inta[],intk){
- inti;
- //用容量为k的最小堆来存储最大的k个数
- for(i=k;i>=1;i–){
- //调整以i为根节点的树使之成为最小堆
- MinHeap(a,i,k);
- }
- return0;
- }
- intmain(){
- intn=6;
- intk=3;
- //a[0]不用,堆的根结点是从1开始的
- inta[]={0,3,17,8,27,7,20};
- //BulidMaxHeap将输入数组构造一个最小堆
- BuildMinHeap(a,k);
- //数组中最小元素在根a[1]
- for(inti=n;i>k;i–){
- //如果X比堆顶元素Y小,则不需要改变原来的堆
- //如果X比堆顶元素Y大,那么用X替换堆顶元素Y,在替换之后,X可能破坏了最小堆的结构,需要调整堆来维持堆的性质
- inttemp;
- if(a[1]<a[i]){
- //交换
- temp=a[i];
- a[i]=a[1];
- a[1]=temp;
- //重新调整,保持最小堆的性质
- MinHeap(a,1,k);
- }
- }
- for(i=1;i<=k;i++){
- printf(“%d”,a[i]);
- }
- return0;
- }
如果不明白堆的用法,可以参考:堆排序
堆排序中主要讲解最大堆,最大堆和最小堆几乎一样。自己看看就知道了。
【解法四】
这个方法受到一定的限制。
如果所有N个数都是正整数,而且取值范围都不太大。可以考虑申请空间,记录每个整数出现的次数,然后再从大到小取最大的K个。
[cpp]
view plain
copy
- #include<stdio.h>
- #include<string.h>
- constintMaxN=100;
- intcount[MaxN];
- intmain(){
- intk=3;
- inta[]={3,17,8,27,7,20};
- memset(count,0,MaxN);
- //统计每个数重复次数
- for(inti=0;i<6;i++){
- count[a[i]]++;
- }
- //选取最大K个数
- intsumCount=0;
- for(i=MaxN;i>=0;i–){
- sumCount+=count[i];
- if(sumCount>=k){
- break;
- }
- }
- //输出
- intindex=i;
- for(i=index;i<MaxN;i++){
- if(count[i]>0){
- printf(“%d”,i);
- }
- }
- printf(“\n”);
- return0;
- }