算法是为求解一个问题所需要遵循的、被清楚地指定的简单指令的集合。对于一个问题,一旦给定某种算法并且确定其实正确的,那么重要的一步就是确定该算法将需要多少诸如时间或空间等资源量的问题,这就是时间复杂度和空间复杂度存在的意义。常用时间复杂度和空间复杂度来衡量不同算法的优劣。
一、从数学的角度理解 O(n)、Ω(n)、o(n)和Θ(n)
通常,我们以函数所处理的数据量来表示算法的性能,也就是说,对于大小为 n 的数据,我们用函数 f(n) 来表示它的算法性能。在很多情况下,我们可以完全确定 f 的具体值,但是这通常不是必要的,我们更关心的是当算法处理的数据量变得无穷大时,算法的性能将趋近于一个什么样的值,即一个算法的增长速率(运行时间、占用空间的增长率)。要描述这种增长率,需要用到一系列新的定义,这些定义的目的是要在函数间建立一种相对的级别,反映出二者之间的相对增长率。
1.1 Θ 记法:
Θ 记法给出了一个函数的渐进上界和渐进下界。对于一个给定的函数 g(n),用 Θ(g(n)) 来表示以下函数的集合:
Θ(g(n)) = { f(n):存在正常量c1、c2、n0,使得对所有 n >= n0,有 0 <= c1g(n) <= f(n) <= c2g(n) }
即,f(n) = Θ(g(n)) 表示,对所有的 n>=n0,函数 f(n) 在一个常量因子内等于 g(n),称 g(n) 是 f(n) 的一个渐进紧确界。此外,有一个定理:对于任意两个函数 f(n) 和 g(n),我们有 f(n) = Θ(g(n)),当且仅当 f(n) = O(g(n)) 且 f(n) = Ω(g(n))。
1.2 大 O 记法:
对于一个给定函数 g(n),用 O(g(n)) 来表示以下函数的集合:
O(g(n)) = {f(n) :存在正常量 c 和 n0,使得对所有 n>=n0,有 0 <= f(n) <= cg(n)}
用大 O 记法来给出函数的一个在常量因子内的渐进上界。即, f(n) = O(g(n)) 表示,函数 f(n) 的增长率小于等于 g(n) 的增长率。
大 O 记法是最常用的一种用来表示算法增长规律的方法,以大 O 记法来表示函数 f(n) 时,需要注意几点(其他几种记法也是):
1)可以忽略 f (n) 的常数项,因为随着 n 的值变得越来越大,常数项最终变得可忽略不计;
2)可以忽略 f (n) 的常数因子,因为随着 n 的值越来越大,常数因子也可以忽略不计;
3)只需要考虑 f (n) 的高阶项的因子,因为随着 n 的值越来越大,高阶因子的值会迅速超过低阶因子的值。
1.3 大 Ω 记法:
大 Ω 记法给出了一个函数的渐进下界。对于给定的函数 g(n),用 Ω(g(n)) 表示以下函数的集合:
Ω(g(n)) = {f(n) :存在正常量 c 和 n0,使得对所有 n>=n0,有 0 <= cg(n) <= f(n)}
即,f(n) = Ω(g(n)) 表示,函数 f(n) 的增长率小于等于 g(n) 的增长率。
1.4 小 o 记法:
大 O 记法提供的渐进上界可能是渐进紧确的也可能不是,因此,我们使用小 o 记号来表示一个非渐进紧确的上界。因此, o(g(n)) 表示这样的集合:
o(g(n)) = {f(n) :对任意正常量 c > 0,存在常量 n0 > 0,使得对所有 n>=n0,有 0 <= f(n) < cg(n)}
即,f(n) = o(g(n)) 表示,函数 f(n) 的增长率小于 g(n) 的增长率。
二、时间复杂度
时间复杂度指的是执行一个算法所需要的时间。这不一定是一个确切的时间,通常,我们需要知道的是一个算法在最坏情况下执行(比如输入规模无限大)所需要的时间,也就是寻找算法执行时间的一个渐进上界来作为算法的时间复杂度,通过比较多个算法的这个上界,可以知道哪个算法执行比较快,哪个比较慢。这里就用到了上面所讲的大 O 记法,我们通常使用大 O 记法来表示一个算法的时间复杂度。
2.1 计算时间复杂度的方法
一个程序运行的总时间主要与以下两点有关:
1)执行每条语句所耗的时间;
2)执行每条语句的频率或者说次数。
其中,第一条取决于计算机、编译器和操作系统,第二条取决于程序本身和输入规模。如果对于一个程序的所有部分,我们都知道了这些性质,则将它们相乘并将所有指令的成本相加即可得到总运行时间,这是一个确切的时间。用大 O 记法对这个确切的时间表达式( f(n) )进行处理:
1)执行每条语句所耗的时间为常数,常数项忽略,因此只需要考虑每条语句的执行频率;
2)忽略执行频率函数的常数因子;
3)只保留执行频率函数的最高阶项。
即可得到一个大 O 表达式,这个大 O 表达式就是该程序的时间复杂度。举一个例子:
1 int Sum(int n) 2 { 3 int i,sum; 4 5 sum = 0; 6 for(i = 0;i < n;i++) 7 sum += i*i*i; 8 return num; 9 }
对这段代码进行分析:首先,声明不计入时间;第 5 行和第 8 行各占一个时间单元;第 7 行每执行一次占用四个时间单元(两次乘法、一次加法、一次赋值),执行 n 次,共占用 4n 个时间单元;第 6 行在初始化 i、测试 i < n 和对 i 进行自增操作中隐含着开销,所有这些开销总共占用 2n+2 个时间单元(i 初始化占用一个时间单元、测试 i < n 要执行 n+1 次,占用 n+1 个时间单元、自增操作执行 n 次,占用 n 个时间单元)。因此,上述代码所耗的时间总量为 2 + 4n +(2n+2) = 6n + 4。根据前面所提到的方法,忽略常数项、忽略常数因子,可以得到这段代码的时间复杂度为 O(n)。
当然,如果每次都要像这样逐行地对代码进行分析来计算时间复杂度显然是不可行的,通常,许多代码的大 O 表达式是已知的,直接根据已知的大 O 结果即可得到代码最后的结果。因此,关于上述代码的时间复杂度,还可以这样分析: for 循环是 O(n) 语句,其他语句的执行时间为常数项,忽略掉,即可得到整段代码的时间复杂度为 O(n).
2.2 一些常见的时间复杂度
大O表达式 | 描述 | 例 |
O(1) | 常数级,表明算法的执行时间不随问题规模 n 的增大而增大; 另外,对于常数 c,有 O(c) = O(1) | 普通语句,如 a = b+c |
O(logn) | 对数级,表明算法的执行时间随问题规模 n 的增大而呈对数增长; 对数的底数与增长的数量级无关(不同的底数相当于常数因子), 因此在说明对数级时一般使用 logn 来表示。 | 二分查找 |
O(n) | 线性级,表明算法的执行时间随问题规模 n 的增大而呈线性增长 | 单个for循环 |
O(nlogn) | 线性对数级,表明算法的执行时间与问题规模 n 的关系为 nlogn | 归并排序、快速排序 |
O(n^2) | 平方级,表明算法的执行时间随问题规模 n 的增大而呈平方级增长 | 二层 for 循环、选择排序 |
O(n^3) | 立方级,表明算法的执行时间随问题规模 n 的增大而呈立方级增长 | 三层 for 循环 |
O(2^n) | 指数级,表明算法的执行时间随问题规模 n 的增大而呈指数增长 | 穷举查找 |
按照所消耗时间从小到大排序:O(1) < O(logn) < O(n) < O(nlogn) < O(n^2) < O(n^3) < O(2^n).
三、空间复杂度
算法的空间复杂度用来描述算法在运行时临时占用存储空间的大小,记作 S(n) = O(f(n)) ,表示算法所占用的存储空间与问题规模 n 的关系,其分析计算方式也与时间复杂度类似。
对于一个算法,其时间复杂度和空间复杂度往往是相互影响的。当追求一个较好的时间复杂度时,可能会使得空间复杂度的性能变差,即占用更多的存储空间;相反,当追求更好的空间复杂度时,可能会使得时间复杂度变差,消耗更多的运行时间。在设计一个程序(尤其是大型程序)时,需要综合考虑算法的各项性能,以在二者之间寻求一个平衡点,达到最大收益。
参考资料:
《算法导论 第三版》
《数据结构与算法分析–C语言描述》