MD5算法的学习与总结

MD5简介

消息摘要算法第五版(Message-Digest Algorithm 5,缩写MD5),是当前计算机领域用于确保信息传输完整一致而使用的散列算法之一(又译哈希算法,摘要算法),将数据运算变为另一固定长度值,是散列算法的基础原理;
MD5的前身有MD2、MD3和MD4。MD5由MD4、MD3、MD2改进而来,主要增强算法复杂度和不可逆性。目前,MD5算法因其普遍、稳定、快速的特点,仍广泛应用于普通 数据的错误检查领域;
例如,服务器预先提供一个MD5校验和,用户下载完文件以后, 用MD5算法计算下载文件的MD5校验和,然后通过检查这两个校验和是否一致,就能判断下载的文件是否出错。
MD5是输入不定长度信息,输出固定长度128-bits的算法。经过程序流程,生成四个32位数据,最后联合起来成为一个 128-bits散列。基本方式为,求余、取余、调整长度、与链接变量进行循环运算。得出结果。

MD5算法描述

假设输入信息(input message)的长度为b(bit),我们想要产生它的报文摘要,在此处b为任意的非负整数:b也可能为0,也不一定为8的整数倍,且可能是任意大的长度。设该信息的比特流表示如下: M[0] M[1] M[2] … M[b-1] 计算此信息的报文摘要需要如下几部:

0x1

我们是对一个字符串进行MD5加密,所以我们先从字符串的处理开始:
1.分组:
首先我们要知道一个字符的长度是8位(bit),即一个字节的长度。现在我们要做的就是将一个字符串Str1分割成每512位为一个分组,形如N*512+R,最后多出来的不足512位的R部分先填充一个1,再接若干个0,直到补足512位(64字节)。这里要注意,R为0时也要补位,这时候补512位,最高位1,形如1000…00;如果R超出448(54字节),除了要补满这个分组外,还要再补上一个512位的分组(因为超过448位则不能留64位(8字节)出来存放字符串的原长).
2.接着,讲讲将字符串分块保存部分:
一个512位的字符串分组要分成16个32位的子分组,在每个32位中,以字节为单位通过小端规则存入一个32位的变量中,可以考虑用int类型的变量(一个int变量32位),也可以考虑用unsigned int,这样之后涉及的循环移位就不用考虑符号位了,这里还是以int为例。因为一个字符就是一个字节(8位),所以一个int类型变量能存放4个字符,假设一个字符串abcd,那么存在一个int类型变量中就是dcba。因此这里我们将字符串每4个字符分成一块,每一个块都以小端规则存放在一个int类型的变量中;
补充好后的Str2长度为(N+1)*512位(如果R超出448,则是(N+2)*512),此时最低的64位预留,用来存放之前str1的长度length(长度为字符个数*8 bit)的值,如果这个length值的二进制位数大于64位,则只保留最低的64位。将这个64位的length放入之前填充好的str2的最后64位又要注意了:将length的64位分成2个32位,相当于2个字(1个字32位),再将这个2个字用类似小端规则排列,分别填入预留的64位。之前我就是这点没有领悟,估计大家也不是很懂,我具体说明一下:
假设64位分成AB(A,B分别表示32位的二进制数,A是高位,B是低位),按小端规则排列后就是BA,将形如BA的64位按B(高位)到A(低位)的顺序填入str2预留的64位,而对A,B内部显示的每个字节则不用做处理。假设长度 0x12,则按A,B两个字来补位可以得:A=0x0000 0000,B=0x0000 0012。
具体实现思路:
用一个长度为16的int类型的数组int M[16]。因为一个int类型数据有32位,16个加起来刚好一共512位,是一个分组的长度。我刚好就按顺序M[0]…M[15]表示一个512位的数。我再声明一个容器vector,用来存放每个M[16],因为分组个数不一定只有一个.
举个例子方便大家理解。首先介绍一些常识:a – 61, b – 62, c – 63, d – 64, e – 65。这里“a – 61”表示a的ASCII码十六进制表示是0x61,其他以此类推。
好,假设一个字符串abcde,一共5个字符,长度length 为 5* 8 = 40 = 0x28。512位转化成十六进制就是64位。原字符串十六进制表示:61 62 63 64 65 00 00…00。完成补位后共512位,只有1个分组,形如: 61 62 63 64 65 80 00… 00(“80”的二进制是1000 0000,即之前的先补一个1,再补很多0的做法,见上面的”最后多出来的不足512位的R部分先填充一个1,再接若干个0,直到补足512位”)。一个int M[16]的数组就够存了,即:
M[0] = 64 63 62 61,

M[1] = 00 00 80 65,

M[2] = 0,

M[3] = 0

M[14] = 00 00 00 28,//这里表示的是原来字符串的长度

M[15] = 0
《MD5算法的学习与总结》
M[0]~M[15]设好之后,在内存中就是这样存的61 62 63 64 65 80 00…00
(注意这里我们用MD5处理字符串时都考虑内存中的数据的排列顺序,得出的MD5也是需要按内存中的数据输出,所以经常要用小端规则转换)
看完这个例子,大家应该对步骤1的内容有比较全面的了解了;

0x2

步骤2:MD5有四个32位的被称作链接变量的整数参数,我们进行如下设置:

A=0x67452301,

B=0xefcdab89,

C=0x98badcfe,

D=0x10325476。

数据这样设置之后,存在内存中就按小端规则排列:01 23 45 67 89 ab cd ef …32 10

再声明四个中间变量a,b,c,d,赋值:a = A, b = B, c = C, d = D。

接着再设置四个非线性函数:

   F(X,Y,Z) =(X&Y)|((~X)&Z)

   G(X,Y,Z) =(X&Z)|(Y&(~Z))

  H(X,Y,Z) =X^Y^Z

  I(X,Y,Z)=Y^(X|(~Z))

(&是与,|是或,~是非,^是异或)

这四个函数的说明:如果X、Y和Z的对应位是独立和均匀的,那么结果的每一位也应是独立和均匀的。

假设M[j]表示消息的第j个子分组(从0到15);

FF(a, b, c, d, M[j], s, ti)表示 a = b + ((a + F(b, c, d) + Mj + ti) <<< s)

GG(a, b, c, d, M[j], s, ti)表示 a = b + ((a + G(b, c, d) + Mj + ti) <<< s)

HH(a, b, c, d, M[j], s, ti)表示 a = b + ((a + H(b, c, d) + Mj + ti) <<

拓展:

SHL是逻辑左移,右边的位补零,ROL是循环左移,左边移出的位补到右边。

汇编指令—ROL和ROR指令

循环左移/右移指令只是移位方向不同,它们移出的位不仅要进入CF,而且还要填补空出的位。
例如:
MOV AL,82H
ROL AL,1
首先把82H转换成二进制数10000010B;
循环左移1位后变成:00000101B,换算成十六进制数便是05H;
循环右移1位后变成:01000001B,换算成十六进制数便是41H;

0x3

接下来就是要进行一个MD5算法的主要循环了,这个循环的循环次数为512位分组的个数(即之前提到的N+1或者N+2)。每次循环执行以下的步骤:

a = A; b = B; c = C; d = D;

//传说中的对M[j]的第一轮循环

        FF(a,b,c,d,M[0],7,0xd76aa478);

        FF(d,a,b,c,M[1],12,0xe8c7b756);

        FF(c,d,a,b,M[2],17,0x242070db);

        FF(b,c,d,a,M[3],22,0xc1bdceee);

        FF(a,b,c,d,M[4],7,0xf57c0faf);

        FF(d,a,b,c,M[5],12,0x4787c62a);

        FF(c,d,a,b,M[6],17,0xa8304613);

        FF(b,c,d,a,M[7],22,0xfd469501) ;

        FF(a,b,c,d,M[8],7,0x698098d8) ;

        FF(d,a,b,c,M[9],12,0x8b44f7af) ;

        FF(c,d,a,b,M[10],17,0xffff5bb1) ;

        FF(b,c,d,a,M[11],22,0x895cd7be) ;

        FF(a,b,c,d,M[12],7,0x6b901122) ;

        FF(d,a,b,c,M[13],12,0xfd987193) ;

        FF(c,d,a,b,M[14],17,0xa679438e) ;

        FF(b,c,d,a,M[15],22,0x49b40821);



        //传说中对M[j]的第二轮循环

        GG(a,b,c,d,M[1],5,0xf61e2562);

        GG(d,a,b,c,M[6],9,0xc040b340);

        GG(c,d,a,b,M[11],14,0x265e5a51);

        GG(b,c,d,a,M[0],20,0xe9b6c7aa) ;

        GG(a,b,c,d,M[5],5,0xd62f105d) ;

        GG(d,a,b,c,M[10],9,0x02441453) ;

        GG(c,d,a,b,M[15],14,0xd8a1e681);

        GG(b,c,d,a,M[4],20,0xe7d3fbc8) ;

        GG(a,b,c,d,M[9],5,0x21e1cde6) ;

        GG(d,a,b,c,M[14],9,0xc33707d6) ;

        GG(c,d,a,b,M[3],14,0xf4d50d87) ;

        GG(b,c,d,a,M[8],20,0x455a14ed);

        GG(a,b,c,d,M[13],5,0xa9e3e905);

        GG(d,a,b,c,M[2],9,0xfcefa3f8) ;

        GG(c,d,a,b,M[7],14,0x676f02d9) ;

        GG(b,c,d,a,M[12],20,0x8d2a4c8a);



        //传说中对M[j]的第三轮循环

        HH(a,b,c,d,M[5],4,0xfffa3942);

        HH(d,a,b,c,M[8],11,0x8771f681);

        HH(c,d,a,b,M[11],16,0x6d9d6122);

        HH(b,c,d,a,M[14],23,0xfde5380c) ;

        HH(a,b,c,d,M[1],4,0xa4beea44) ;

        HH(d,a,b,c,M[4],11,0x4bdecfa9) ;

        HH(c,d,a,b,M[7],16,0xf6bb4b60) ;

        HH(b,c,d,a,M[10],23,0xbebfbc70);

        HH(a,b,c,d,M[13],4,0x289b7ec6);

        HH(d,a,b,c,M[0],11,0xeaa127fa);

        HH(c,d,a,b,M[3],16,0xd4ef3085);

        HH(b,c,d,a,M[6],23,0x04881d05);

        HH(a,b,c,d,M[9],4,0xd9d4d039);

        HH(d,a,b,c,M[12],11,0xe6db99e5);

        HH(c,d,a,b,M[15],16,0x1fa27cf8) ;

        HH(b,c,d,a,M[2],23,0xc4ac5665);



        //传说中对M[j]的第四轮循环

        II(a,b,c,d,M[0],6,0xf4292244) ;

        II(d,a,b,c,M[7],10,0x432aff97) ;

        II(c,d,a,b,M[14],15,0xab9423a7);

        II(b,c,d,a,M[5],21,0xfc93a039) ;

        II(a,b,c,d,M[12],6,0x655b59c3) ;

        II(d,a,b,c,M[3],10,0x8f0ccc92) ;

        II(c,d,a,b,M[10],15,0xffeff47d);

        II(b,c,d,a,M[1],21,0x85845dd1) ;

        II(a,b,c,d,M[8],6,0x6fa87e4f) ;

        II(d,a,b,c,M[15],10,0xfe2ce6e0);

        II(c,d,a,b,M[6],15,0xa3014314) ;

        II(b,c,d,a,M[13],21,0x4e0811a1);

        II(a,b,c,d,M[4],6,0xf7537e82) ;

        II(d,a,b,c,M[11],10,0xbd3af235);

        II(c,d,a,b,M[2],15,0x2ad7d2bb);

        II(b,c,d,a,M[9],21,0xeb86d391);



        A += a;

        B += b;

        C += c;

        D += d;

0x4

处理完所有的512位的分组后,得到一组新的A,B,C,D的值,将这些值按ABCD的顺序级联,然后输出。这里还要注意,输出的MD5是按内存中数值的排列顺序,所以我们要分别对A,B,C,D的值做一个小端规则的转换。举个例子:A有32位,分成4个字节A1A2A3A4。输出A的时候,要这样输出:A4A3 A2A1。这样就能输出正确的MD5了。

注:本文是对网上内容的一些总结与整理

点赞