《大话数据结构》第二章 算法 读书笔记

第二章 算法

        算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个火多个操作。

2.1 开场白

        开始增加难度

2.2 数据结构与算法的关系

        数据结构中很多时候会讲算法。

        在数据结构中讲到算法,是为何帮助理解好数据结构,并不会详细谈及算法的方方面面。

2.3 两种算法的比较

        逐个累计算法

        高斯计算1+2+…100的算法

2.4 算法定义

        算法是描述解决问题的方法。

        算法(Algorithm)这个单词最早出现在波斯数学家阿勒.花剌子蜜在公园825年(相当于我国的唐朝时期)所写的《印度数字算术》中。如今普遍认可的对算法的定义是:

        算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作。

        没有通用的算法,就如同没有包治百病的药一样。

        现实世界中的问题千奇百怪,算法也要千变万化,没有一个通用的算法可以解决所有的问题。甚至解决一个小问题,很优秀的算法却不一定适合。

        为了解决某个或某类问题,需要把指令表示成一定的操作序列,操作序列包括一组操作,每一个操作都完成特定的功能,这就是算法了。

2.5 算法的特性

        算法的五个基本特性:输入、输出、有穷性,确定性和可行性。

2.5.1 输入输出

        算法具有零个或多个输入。算法至少有一个或多个输出。

2.5.2 有穷性

        有穷性:指算法在执行有限的步骤之后,自动结束而不会出现无限循环,并且每一个步骤在可以接受的时间内完成。

2.5.3 确定性

        确定性:算法的每一步都具有确定的含义,不会出现二义性。

        相同的输入只有唯一的输出结果。算法的每个步骤都被精确定义而无歧义。

2.5.4 可行性

        可行性:算法的每一步都必须是可行的,也就是说,每一步都能够通过执行有限次数完成。

2.6 算法设计的要求

        算法不是唯一的。同一个问题,可以有多重解决问题的算法。

2.6.1 正确性

        正确性:算法的中却行是只算法至少应该具有输入,输出和加工处理无歧义性,能正确反映问题的需求,能够得到问题的正确答案。

        算法的“正确”通常在用法上有很大的差别,大体分为以下四个层次。

        1.算法程序没有语法错误。

        2.算法程序对于合法的输入数据能够产生满足要求的输出结果。

        3.算法程序对于非法的输入数据能够得出满足规格说明的结果。

        4.算法程序对于静心选择的,深圳刁难的测试数据都有满足要求的输出结果。

2.6.2 可读性

        可读性:算法设计的另一个目的是为了便于阅读,理解和交流。

        可读性高有助于人们理解算法,晦涩难懂的算法往往隐含错误,不易被发现,并且难于调试和修改。

2.6.3 健壮性

        健壮性,当输入数据不合法时,算法也能做出相关处理,而不是产生异常或莫名其妙的结果。

2.6.4 时间效率高和存储量低

        最后,好的算法还应该具备时间效率高和存储量低的特点。

        时间效率值的是算法的执行时间,对于同一个问题,如果有多个算法能够解决,执行时间段的算法效率高,执行时间长的效率低。

        存储量需求指的是算法在执行过程中需要的最大存储空间,朱啊哟是算法程序运行时所占用的内存或外部硬盘存储空间。

        设计算法应该尽量满足时间效率高和存储量低的需求。

        总结:好的算法应该就别正确性,可读性,健壮性,高效率和低存储量的特点。

2.7 算法效率的度量方法

2.7.1 事后统计方法

        事后统计方法:这种方法主要是通过设计好的测试程序和数据,利用计算机计时器对不同算法编制的程序的运行时间进行比较,从而确定算法效率的高低。

        这种方法的缺陷:

        必须依据算法事前编制好程序,这通常需要花费大量的时间和精力。如果编制出来发现他根本是很糟糕的算法,不是竹篮打水一场空吗?

        时间的比较依赖计算机硬件和软件等环境因素,有事会掩盖算法本身的优劣。

        算法的测试数据设计困难,并且程序的运行时间往往还与测试数据的规模有很大关系,效率高的算法在小测测试数据面前往往得不到体现。比如10个数字的排序,们不管用干什么算法,差异几乎是0.而如果一百万个随机数字排序,那不同的算法差异就非常大了。

        基于事后统计方法有这样那样的缺陷,我们考虑不予采纳。

2.7.2 事前分析估算方法

        事前分析估算方法:在计算机程序编制前,一句统计方法对算法进行估算。

        高级语言编写的程序在九三级上运行时锁小孩的时间取决于下列因素:

        1.算法采用的策略、方法

        2.编译产生的代码质量

        3.问题的输入规模

        4.机器执行指令的速度。

        最终,在分析程序的运行时间时,最重要的是吧程序看成独立于程序设计语言的算法和一系列步骤。

        f(n) = n

        f(n) = 1

        f(n) = n^2

        随着n值的越来越大,它们在时间效率上的差异也就越来越大。

2.8 函数的渐进增长

        输入规模n在没有限制的情况下,只要超过一个数值N,这个函数就总大于另一个函数,我们称函数是渐进增长的。

        函数的渐进增长:给定两个函数f(n)和g(n),如果存在一个证书N,是的对于所有的n>N,f(n)总是比g(n)大,那么,我们说f(n)的增长渐进快于g(n).

        因为随着n的增大,加法常数其实是不影响做种的算法变化的,所以我们可以忽略加法常数。

        与最高次项相乘的常数也并不重要。

        判断一个算法的效率时,函数中的常数和其他次要项常常可以忽略,而更应该关注主项(最高阶项)的阶数。

        某个算法,随着n的增大,它会越来越优于另一算法,或者越来越差于另一算法。这其实就是事前估算方法的理论依据,通过算法时间复杂度来估算算法时间效率。

2.9 算法时间复杂度

2.9.1 算法时间复杂度定义

        在进行算法分析时,语句总的执行次数T(n)是关于问题规模n的函数进而分析T(n)随n的变化情况并确定T(n)的数量级。算法的时间复杂度,也就是算法的时间量度,记作:T(n) = O(f(n))。它表示随问题规模n的增大,算法执行时间的增长率和f(n)的增长率相同,称作算法的渐近时间复杂度,简称为时间复杂度。其中f(n)是sentiment规模n的某个函数。

        用大写O()来体现算法时间复杂度的记法,我们称之为大O记法。

        一般情况下,随着n的增大,T(n)增长最慢的算法为最优算法。

        显然,由此算法时间复杂度的定义可知,我们的三个求和算法的时间复杂度分别为O(n),O(1),O(n^2)。我们分别给他们取了一个非官方的名称,O(1)叫常数阶,O(n)叫线性阶,O(n^2)叫平方阶,当然,还有其他的一些阶,我们之后会介绍。

2.9.2 推导大O阶的方法

        1.用常数1取代运行时间中所有的加法常数

        2.在修改后的雨欣次数函数中,值保留最高阶项。

        3.如果最高阶项存在不是1,则去除与这个项相乘的常数。

        得到的结果就是大O阶。

        似乎很简单,但还要看看例子。

2.9.3 常数阶

        下面的这个算法,也就是刚才的第二种算法(高斯算法),为什么时间复杂度不是O(3)而是O(1)。

        int sum = 0, n = 100;  /* 执行一次 */

        sum = (1+n)*n/2;      /* 执行一次 */

        printf(“%d”, sum);    /* 执行一次 */

        这个算法的运行次数函数是f(n)=3。根究我们推导大O阶的方法,第一步就是把常数项3改为1.在保留最高阶项时发现,他根本没有最高阶项,所以这个算法的时间复杂度为O(1)。

        无论n为多少,与问题的大小无关,执行时间恒定的算法,我们称之为具有O(1)的时间复杂度,又叫常数阶。

        注意:不管这个常数是多少,我们都记作O(1),而不能是O(3),O(12)等其他任何数字,这是初学者常常犯的错误。

        对于分支结构而言,无论是真,还是假,执行的次数都是恒定的,不会随着n的变大而发生变化,所以单纯的分支结构(不包含在循环结构中),其时间复杂度也是O(1)。

2.9.4 线性阶

        线性阶的循环结构会复杂很多。要确定某个算法的阶次,我们常常需要确定某个特定词语或某个语句集运行的次数。因此我们要分析算法的复杂度,关键就是要分析循环结构的运行情况。

        int i;

        for(i = 0; i < n; i++)

        {

            /*时间复杂度为O(1)的程序步骤序列)*/

        }

2.9.5 对数阶

下面这段代码的时间复杂度有事多少呢?

        int count = 1;

        while(count < n)

        {

            count = count * 2;

        }

        由于每次count乘以2之后,就距离n更近了一分。也就是说,有多少个2相乘后大于n,则会退出循环。由2x = n得到 x=log2n。所以这个循环的时间复杂度为O(logn)。

2.9.6 平方阶

        下面的例子是一个循环嵌套,它的内循环刚才我们已经分析过,时间复杂度为O(n)。

        int i,j;

        for(i = 0; i < n; i++)

        {

            for (j = 0; j < n; j++)

            {

                /* 时间复杂度为O(1) 的程序步骤序列 */

            }

        }

外层的循环,不过是内部这个时间复杂度为O(n)的语句,再循环n次。所以这顿啊代码的时间复杂度为O(n^2)。

如果外循环的次数改为了m,时间复杂度就变为了O(mXn)。

    int i,j;

    for(i = 0; i < m; i++)

    {

        for (j = 0; j < n; j++)

        {

            /* 时间复杂度为O(1)的程序步骤序列 */

        }

    }

        所以我们可以总结得出,循环的时间复杂度等于循环体的复杂度乘以改循环运行的次数。

        那么下面这个循环嵌套,它的时间复杂度是多少呢?

        int i,j;

        for(i = 0; i <n; i++)

        {

            for(j = i; j < n; j++)

            {

                /*时间复杂度为O(1)的程序步骤序列*/

            }

        }

《《大话数据结构》第二章 算法 读书笔记》

        用我们推导大O阶的方法,第一条,没有加法常数不予考虑,第二条只保留最高阶项,因此保留 n^2/2;第三条,去除这个项相乘的常数,也就是去除1/2,最终这段代码的时间复杂度为O(n^2)。

        理解大O推导不难,难的是对数列的医学相关运算,这更多的是考察你的数学知识能力,如果想考研,要想在求算法时间复杂度这里不失分,可能需要强化你的数学,特别是数列方面的知识和解题能力。

        我们继续看例子,对于方法调用的时间复杂度又如何分析?

        int i,j;

        for(i = 0; i < n; i++)

        {

            function(i);

        }

        void function(int count)

        {

            print(count);

        }

函数体是打印这个参数。其实这很好理解,function函数的时机复杂度是O(1)。所以整体的时间复杂度为O(n)。

假如function是下面扎样的:

        void function(int count)

        {

            int j;

            for(j = count; j < n; j++)

            {

                /* 时间复杂度为O(1)的程序步骤序列 */

            }

        }

事实上和刚才的例子是一样的只不过把嵌套内循环放到函数中,所以最终的时间复杂度为O(n^2)

下面这段相对复杂的语句:

        n++;

        funciton(n);    /* 执行次数为n */

        int i,j;

        for(i = 0; i < n; i++)

        {

            function(i);

        }

        for(i = 0; i < n; i++)

        {

            for(j = i; j < n; j++)

            {

                /* 时间复杂度为O(1)的程序步骤序列 */

            }

        }

2.10常见的时间复杂度

常见的时间复杂度如下表

《《大话数据结构》第二章 算法 读书笔记》

        常用的时间复杂度所耗费的时间从小到大的依次是:

        O(1)<O(logn)<O(n)<O(nlogn)<O(n^2)<O(n^3)<O(2^n)<O(n!)<O(n^n)

        我们前面已经谈到了O(1)常数阶,O(logn)对数阶,O(n)线性阶,O(n^2)平方阶等,至于O(nlogn)我们将会在今后的课程中介绍,而像O(n^3),过大的n都会使得结果变得不现实。同样指数阶O(2^n)和阶乘阶O(n!)等除非是很小的n值,否则哪怕n只是100,都是噩梦般的运行时间。所以这种不切实际的算法时间复杂度,一般我们都不去讨论它。

2.11 最坏情况与平均情况

        最坏情况运行时间是一种保证,那就是运行时间将不会再坏了。在应用中,这是一种最重要的需求,通常,除非特别指定,我们提到的运行时间都是最坏情况的裕兴时间。

        平均时间是所有情况中最有意义的,因为他是期望的运行时间。但现实,平均运行时间很难通过分析得到,一般都是通过运行一定数量的试验数据后估算出来的。

        一般在没有特殊说明的情况下,都是指最坏时间复杂度。

2.12 算法空间复杂度

        闰年计算,可以写一个判断闰年的算法,也可以写一个所有年份的列表,记录哪一年是闰年。

        算法的空间复杂度通过计算算法所需的存储空间实现,算法控件复杂度的计算公式记作:S(n) = O(f(n)),其中,n为问题的规模,f(n)为语句相关于n所占存储空间的函数。

        一般情况下,一个程序在机器上执行时,除了需要存储程序本身的指令,常数,变量和输入数据外,还需要存储对数据操作的存储单元。若输入数据所占空间只取决于问题本身,和算法无关,这样只需要分析该算法在实现时所需的辅助单元即可。若算法执行时所需的辅助空间相对于输入数据而言是个常数,则称此算法为原地工作,空间复杂度为O(1)。

        通常,我们都使用“时间复杂度”来指运行时间的需求,使用“空间复杂度”指空间需求。当不用限定词地使用“复杂度”时,通常斗志时间复杂度。显然我们本书的重点要讲的还是算法的时间复杂度问题。

2.13 总结回顾

        算法的定义:算法是解决特定问题求解步骤的描述,在计算机中为指令的有限序列,并且每条指令表示一个或多个操作。

        算法的特性:有穷性,确定性,可行性,输入,输出。

        算法的设计要求:正确性,可读性,健壮性,高效率和低存储量需求。

        算法特性与算法设计容易混需要对比记忆。

        算法的度量方法:事后统计(不科学,不准确),事前分析估算方法。

        事前分析估算方法之前,我们先给出了函数渐进增长的定义。

        函数的渐近增长:给定两个函数f(n)和g(n),如果存在一个整数N,使得对于所有的n>N,f(n)总是比g(n)大,那么我们说f(n)的增长渐近快于g(n)。于是我们可以得出一个结论,判断一个算法好不好,我们止痛膏少量的数据是不能做出准确判断的,如果我们可以对比算法的关键执行次数函数渐近增长性,基本就可以分析出:某个算法,随着n的变大,它会越来越优于另一个算法,或者越来越差于另一算法。

        然后给出了算法时间复杂度的定义和推导大O阶 的步骤。

推导大O阶:

        用常数1取代运行时间中的所有加法常数

        在修改后的运行次数函数中,只保留最高阶项。

        如果最高阶项存在且不是1,则去除与这个项相乘的常数。

        得到的结果就是大O阶。

        推导很容易,但如何得到运行次数的表达式却是需要数学功底的。

        常见时间复杂度所耗时间的大小排列:

        O(1)<O(logn)<O(n)<O(nlogn)<O(n^2)<O(2^n)<O(n!)<O(n^n)

        给出类关于算法最坏情况和平均情况的概念,以及空间复杂度的概念。

2.14 结尾语

        学计算机专业,做了很长时间的工作,终于明白了算法时间复杂度的估算。可以通过优化让计算机更快更高效的。

        好好利用算法分析工具,改进代码,让计算机轻松一点,自己也可以更加胜人一筹。

    原文作者:参天
    原文地址: https://www.jianshu.com/p/b5016fc070f6
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞