二进制补码是在《计算机科学概论》中讲授的基本概念,本注记试图讲述:什么是补码,为什么需要补码,补码的运算规则,而最重要的是试图说明,补码规则为什么是如此定义的。从而引申出一个也许不大准确的结论:计算机科学理论是源于实践又反作用与实践的理论,至少从理论上看是如此。
为什么需要补码
定义补码是为了满足计算机表示负整数(也称带符号整数)的需要。有基本知识的都知道,计算机是用二进制来表示数字,即只用0/1两个数字表示数字,如果要表示负数应该怎么办呢?
补码的规则
补码的规则是非常简单的,要表示某正数的负数,只需要对该二进制数取反然后加1 。比如,0011表示十进制的正整数3,那么-3的补码表示就是 1100+1=1101 。(为方便起见,所有例子都使用4比特二进制数来表示。)
基本上,大部分的同学学到这里也就停止了,规则定下来,我们遵守就是了。只有少数同学或者老师会继续提问,为什么补码的定义是取反加1(而不是其他规则),为什么要这样定义,这样定义的依据是什么?以下我试图解释这个问题。
为了证实表示负数用补码的定义是正确的选择,我们可以从反面出发,看看几种不正确的但显然是非常直观的定义。
直接在正整数之前加符号
这种想法最最直观直接了。大家看,要表示带符号数,我们必然需要使用一个比特来代表所谓的符号,就选0代表整数,1代表负数,因此,如果表示-3,那只需在+3前面加负号即可,也就是说3是0011,那么-3就是1011 。这样不就很好了吗?
首先注意,4比特二进制在无符号的时候,表示的范围是0~15,即0000~1111 。在表示带符号整数时,因为抽出了一为作为符号位,那么表达的范围就应该是:
0000~0111 (0~7) 以及 1000~1111 (-0~-7)
一个立即需要解决的问题就是0与-0从含义(定义)上怎么区别?而更为重要的是,符号的出现还直接影响了算术运算规则的定义。比如,原本我们很容易定义加法来做正整数运算,比如0011+0001= 0100(3+1=4),但是这个加法对带符号数就立即失效了,比如0011+1001=1100=(3-1=-4)。
小结一下,在定义带符号数的时候我们有两个问题需要解决:0与-0该如何区分、定义或者解决,其次,使得无符号的加法在带符号的加法保持相容。
对正整数取反
这种想法也非常直观。负数与正数不是刚刚相反吗,那么给定一个正二进制数,只需把每一位都取反不就刚好对应一个负数么?比如,0011(3)的反就是1100(-3)。此时,四比特的带符号二进制数的范围就是:0000~0111 (0~7,与上一个例子相同) 以及 1000~1111 (-7~-0,注意,与上一个例子相比,顺序是颠倒了的。) 。
我们需要问,刚才的问题解决了没有?稍微分析一下,我们失望地发现局面似乎并无改观。还有一个-0(1111),而且加法也不与正数加法兼容,比如:
0011 + 1100 = 1111 ( 3 + (-3)= -0,本应该是0的。)。
再仔细看看,0与-0的区别在哪里?我们稍微乐观点就可以意识到,0000与1111的差距只是差一个1 ?不是吗,1111+1=0000 !于是,补码定义呼之欲出了。
对正整数取反之后再加1 (补码运算规则)
现在我剩下的工作只需要重新考察,在这种预算规则下,刚才两个问题解决了没有?首先,还是看数字的表示范围:0000~0111(0~7,不变),负数1000~1111表示的是:-8~-1 。细心的同学就会立即发现问题说,哎,且慢,怎么多了一个-8出来?不着急,大家只需要对0000~0111这8个数逐个用补码规则求反就会发现,我们得不到1000这个数字,也就是说1000肯定不是-1~-7之间的数。而且运用一般二进制整数的加法来算,-1 (1111)加 -7 (1001) = 1000,那么1000不就刚好是-8么?多了-8出来,刚好-0就没有了。好消息之一!剩下就是继续检查,这种补码运算是否跟原定义的加法相容了。具体例子大家稍微动动笔就知道了。
补码是一个基本概念,在我们讲解这个基本概念的时候,大家往往只是“生吞”定义,然后声讨这些所谓的“理论”,声讨老师只教理论,不讲实践,痛心疾首自己学计算机学了好多好多年还不懂什么……讲完刚才这个例子,我只想问,补码是理论还是一种工程实践?如果它确实是理论(我也相信它是一种理论),如果没有丰富的实践基础可以得出来吗?这个理论难道不是扎根于实践而要深深地影响了实践吗?计算机科学就是这样一种源于实践而要影响实践的学科,而我没有见过不源于实践的理论,也没有见过不应用于实践的理论。
最后用一句Hamming的名言结束本注记(在我的课件中有):The purpose of computing is insight, not numbers.
P.S. 关于补码,如果上面的不想看或者因为我写得不好而不懂,可以记住以下最简单的理解补码的方法。一个n比特的数,范围是-2^{n-1} 到 2^{n-1} – 1,共有2^n个数,请注意它们都是mod 2^n的结果。其中所有的 -x的补码就是2^n – x !
例子:一个8比特的-7写为二进制原码是-00000111,二进制补码就是100000000 – 00000111 = 11111001,即为00000111的取反加1 !