基于哈夫曼树的数据压缩算法

计算机科学与技术系
实 验 报 告

专业名称 计算机科学与技术
课程名称 数据结构与算法
班 级 17计科2班

   综合实验2   基于哈夫曼树的数据压缩算法  

实验日期 2019.04.29

综合实验二 基于哈夫曼树的数据压缩算法
一、实验目的
1.掌握哈夫曼树的构造算法
2.掌握哈夫曼编码的构造算法
二、实验内容
输入一串字符串,根据给定的字符串中字符出现的频率建立相应的哈夫曼树,构造哈夫曼编码表,在此基础上可以对压缩文件进行压缩(即编码),同时可以对压缩后的二进制编码文件进行解压(即解码)
三、实验要求
1.输入说明:多组数据,每组数据1行,为一个字符串(只考虑26个小写英文字母即可)。档输入字符串为“0”时,输入结束。
2.输出说明:每组数据输出2n+3行(n为输入串中字符类别的个数)。第1行为统计出来的字符出现频率(只输出存在的字符,格式为:字符:频度),每两组字符之间用一个空格分隔,字符按照ASCII码从小到大的顺序排列。第2行到第2n行为哈夫曼树的存储结构的终态(一行当中的数据用空格分隔)。第2n+1行为每个字符的哈夫曼编码(只输出存在的字符,格式为:字符:编码),每两组字符之间用一个空格分隔,字符按照ASCII码从小到大的顺序排列。第2n+2行为编码后的字符串,第2n+3行为解码后的字符串(与输入的字符串相同)。
3.测试用例:
输入样例
输入 输出
aaaaaaabbbbbccdddd
aabccc
0 a:7 b:5 c:2 d:4
1 7 7 0 0
2 5 6 0 0
3 2 5 0 0
4 4 5 0 0
5 6 6 3 4
6 11 7 2 5
7 18 0 1 6
A:0 b:10 c:110 d:111
00000001010101010110110111111111111
aaaaaaabbbbbccdddd
a:2 b:1 c:3
1 2 4 0 0
2 1 4 0 0
3 3 5 0 0
4 3 5 2 1
5 6 0 3 4
a:11 b:10 c:0
111110000
aabccc
四、实验分析及设计

  1. 问题分析(问题及解决方案)
    本程序要求实现根据给定的字符串中字符出现的频率建立相应的哈夫曼树,构造哈夫曼编码表,在此基础上可以对压缩文件进行压缩(即编码),同时可以对压缩后的二进制编码文件进行解压(即解码)。

要完成该实验任务,必须完成如下7个子任务:
①建立一个结构体,其中包含了weight:结点的权值,parent:结点的双亲,lchild:结点的左孩子以及rchild:结点的右孩子;
②统计出来的字符出现频率(只输出存在的字符,格式为:字符:频度)。
③输出哈夫曼树的存储结构的终态,每一行有五个数字,其中第一个为结点序号,第二个为结点的值,第三个为结点的父节点的序号,第四个为结点左孩子的序号,第五个为结点右孩子的序号。
④设计一个算法,求出每个节点的哈夫曼编码。
⑤根据每个结点的编码,写出字符串的编码形式。
⑥设计一个算法,进行解码。
⑦构造一个哈夫曼树。
最后写出主函数即可。

  1. 概要设计(实现要点)
    1)为了实现上述程序功能,需要:①输入字符串;②写出每个字符出现的次数;③根据字符出现的次数构造一个哈夫曼树;④输出哈夫曼树的存储结构的终态;⑤求出每个节点的哈夫曼编码;⑥写出编码形式的字符串;⑦最后进行解码。
    2)本程序包含9个函数:
      ① 主函数main()
      ② select_yuan_su(a1,maps,n,h);
    ③ CreatHuffmanTree(ht,n,maps);
    ④ shuchu_zhongtai(ht,n);
    ⑤ CreatHuffmanCode(ht,hc,n);
    ⑥ shuchu_bian_ma(hc,n,maps);
    ⑦ string m=bian_ma(a1,h,hc,n);
    ⑧ jie_ma(m,h,hc,n);
    ⑨ Select(HT,i-1,s1,s2)
    各函数间关系如下:
    Main()包含其他函数。
    CreatHuffmanCode(ht,hc,n)包含Select(HT,i-1,s1,s2)。

  2. 详细设计
    1)数据类型定义
    实现概要设计中定义的所有的数据类型,对每个操作给出伪码算法。对主程序和其他模块也都需要写出伪码算法。
      1) 结点类型和指针类型
      typedef struct
    {
    int weight;
    int parent,lchild,rchild;
    }HTNode,*HuffmanTree;
    typedef char **HuffmanCode;

2)算法设计
void Select(HuffmanTree HT,int len,int &s1,int &s2)
{
//在构造哈夫曼树的时候,需要选出两个最小的结点
循环遍历找出一个最小值,将其赋值给s1。
用temp将s1的值保存下来。
将s1的值改成最大值。
循环遍历找出一个最小值,将其赋值给s2。
恢复s1的值。
}
void CreatHuffmanTree(HuffmanTree &HT,int n,map<char,int>&maps)
{
初始化哈夫曼树
通过n-1次的选择、删除、合并来创建哈夫曼树
}
void CreatHuffmanCode(HuffmanTree HT,HuffmanCode &HC,int n)
{
从叶子到根逆向求每个字符的哈夫曼编码,存储在编码表HC中
结点c是f的左孩子,则生成代码0
结点c是f的右孩子,则生成代码1
}

五、 实验参考代码(含注释)
void Select(HuffmanTree HT,int len,int &s1,int &s2)
{
int i,min1=0x3f3f3f3f,min2=0x3f3f3f3f;//先赋予最大值
for(i=1;i<=len;i++)
{
if(HT[i].weight<min1&&HT[i].parent0)
{
min1=HT[i].weight;
s1=i;
}
}
int temp=HT[s1].weight;//将原值存放起来,然后先赋予最大值,防止s1被重复选择
HT[s1].weight=0x3f3f3f3f;
for(i=1;i<=len;i++)
{
if(HT[i].weight<min2&&HT[i].parent0)
{
min2=HT[i].weight;
s2=i;
}
}
HT[s1].weight=temp;//恢复原来的值
}

//构造哈夫曼树
void CreatHuffmanTree(HuffmanTree &HT,int n,map<char,int>&maps)
{
//构造哈夫曼树HT
int m,s1,s2,i;
if(n<=1) return;
m=2*n-1;
HT=new HTNode[m+1]; //0号单元未用,所以需要动态分配m+1个单元,HT[m]表示根结点
for(i=1;i<=m;++i)//将1~m号单元中的双亲、左孩子,右孩子的下标都初始化为0
{ HT[i].parent=0; HT[i].lchild=0; HT[i].rchild=0; }

map<char,int>::iterator it;
it=maps.begin();
for(i=1;i<=n;++i,it++) //输入前n个单元中叶子结点的权值
HT[i].weight=it->second;
/――――――――――初始化工作结束,下面开始创建哈夫曼树――――――――――/
for(i=n+1;i<=m;++i)
{ //通过n-1次的选择、删除、合并来创建哈夫曼树
Select(HT,i-1,s1,s2);
//在HTk中选择两个其双亲域为0且权值最小的结点,
// 并返回它们在HT中的序号s1和s2
HT[s1].parent=i;
HT[s2].parent=i;
//得到新结点i,从森林中删除s1,s2,将s1和s2的双亲域由0改为i
HT[i].lchild=s1;
HT[i].rchild=s2 ; //s1,s2分别作为i的左右孩子
HT[i].weight=HT[s1].weight+HT[s2].weight; //i 的权值为左右孩子权值之和
} //for
}
// CreatHuffmanTree
void CreatHuffmanCode(HuffmanTree HT,HuffmanCode &HC,int n)
{
//从叶子到根逆向求每个字符的哈夫曼编码,存储在编码表HC中
int i,start,c,f;
HC=new char*[n+1]; //分配n个字符编码的头指针矢量
char *cd=new char[n]; //分配临时存放编码的动态数组空间
cd[n-1]=’\0’; //编码结束符
for(i=1;i<=n;++i)
{ //逐个字符求哈夫曼编码
start=n-1; //start开始时指向最后,即编码结束符位置
c=i;
f=HT[i].parent; //f指向结点c的双亲结点
while(f!=0)
{ //从叶子结点开始向上回溯,直到根结点
–start;//回溯一次start向前指一个位置
if(HT[f].lchild==c)
cd[start]=‘0’; //结点c是f的左孩子,则生成代码0
else
cd[start]=‘1’; //结点c是f的右孩子,则生成代码1
c=f;
f=HT[f].parent; //继续向上回溯
} //求出第i个字符的编码
HC[i]=new char[n-start]; // 为第i 个字符编码分配空间
strcpy(HC[i], &cd[start]); //将求得的编码从临时空间cd复制到HC的当前行中
}
delete cd; //释放临时空间
}

六、实验测试结果(至少两种测试数据)
输入ablizzz

输入dddvvv

七、算法性能分析与总结
1、算法性能分析
从时间性能来看,时间复杂度为O(n^2),因为在CreatHuffmanTree()函数中调用了Select()函数,他们两个里面每个都包含了一层for循环。

2、实验总结
可以这么说,这次实验是我目前为止遇到最难的一个算法,本来我是想放弃的,在网上随便找一个直接复制过来。但是这次我没有,尽管不是我自己独立完成的,但其中有一部分核心代码,也就是我们这次要掌握的哈夫曼树的构造以及哈夫曼编码是我自己实现的,我还是很高兴的,但是这个算法还有一点小缺陷,只能输入一个字符串,等出结果了才能再输入下一个字符串。老师强调更要去理解算法的思想。选择一个更好的算法,能提高程序的效率。其他部分的内容我不是很理解,在课后我又问了同学,查阅了相关的资料。把整个程序的设计思路理解了。虽然说以前不是很理解这门课,在它上面花了好多心血,觉得他还是难,我现在明白了一些代码,其实每个程序都有一些共同点,通用的结构。我会抓紧时间将没有吃透的知识点补齐,克服学习中遇到的难关,打牢基础,向更深的层次进发。

    原文作者:zzzley
    原文地址: https://blog.csdn.net/weixin_43286995/article/details/90171389
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞