2009级数据结构实验报告实验名称:实验三——哈夫曼编/解码器的实现学生姓名:陈聪捷日期:2010年11月28日1.实验要求一、实验目的:了解哈夫曼树的思想和相关概念;二、实验内容:利用二叉树结构实现哈夫曼编/解码器1.初始化:能够对输入的任意长度的字符串s进行统计,统计每个字符的频度,并建立哈夫曼树。
2.建立编码表:利用已经建好的哈夫曼树进行编码,并将每个字符的编码输出。
3.编码:根据编码表对输入的字符串进行编码,并将编码后的字符串输出。
4.译码:利用已经建好的哈夫曼树对编码后的字符串进行译码,并输出译码结果。
5.打印:以直观的方式打印哈夫曼树。
6.计算输入的字符串编码前和编码后的长度,并进行分析,讨论哈夫曼编码的压缩效果。
7.用户界面可以设计成“菜单”方式,能进行交互,根据输入的字符串中每个字符出现的次数统计频度,对没有出现的字符一律不用编码。
2. 程序分析2.1 存储结构二叉树template <class T>class BiTree{public:BiTree(); //构造函数,其前序序列由键盘输入~BiTree(void); //析构函数BiNode<T>* Getroot(); //获得指向根结点的指针protected:BiNode<T> *root; //指向根结点的头指针};//声明类BiTree及定义结构BiNodeData:二叉树是由一个根结点和两棵互不相交的左右子树构成二叉树中的结点具有相同数据类型及层次关系哈夫曼树类的数据域,继承节点类型为int的二叉树class HuffmanTree:public BiTree<int>data:HCode* HCodeTable;//编码表int tSize; //编码表中的总字符数二叉树的节点结构template <class T>struct BiNode //二叉树的结点结构{T data; //记录数据T lchild; //左孩子T rchild; //右孩子T parent; //双亲};编码表的节点结构struct HCode{char data; //编码表中的字符char code[100]; //该字符对应的编码};待编码字符串由键盘输入,输入时用链表存储,链表节点为struct Node{char character; //输入的字符unsigned int count;//该字符的权值bool used; //建立树的时候该字符是否使用过Node* next; //保存下一个节点的地址};示意图:2.2 关键算法分析1.初始化函数(void HuffmanTree::Init(string Input))算法伪代码:1.初始化链表的头结点2.获得输入字符串的第一个字符,并将其插入到链表尾部,n=1(n记录的是链表中字符的个数)3.从字符串第2个字符开始,逐个取出字符串中的字符3.1 将当前取出的字符与链表中已经存在的字符逐个比较,如果当前取出的字符与链表中已经存在的某个字符相同,则链表中该字符的权值加1。
3.2 如果当前取出的字符与链表中已经存在的字符都不相同,则将其加入到链表尾部,同时n++4.tSize=n(tSize记录链表中字符总数,即哈夫曼树中叶子节点总数)5.创建哈夫曼树6.销毁链表源代码:void HuffmanTree::Init(string Input){Node *front=new Node; //初始化链表的头结点if(!front)throw exception("堆空间用尽");front->next=NULL;front->character=NULL;front->count=0;Node *pfront=front;char ch=Input[0]; //获得第一个字符Node* New1=new Node;if(!New1)throw exception("堆空间用尽");New1->character=ch; //将第一个字符插入链表New1->count=1;New1->next=pfront->next;pfront->next=New1;bool replace=0; //判断在已经写入链表的字符中是否有与当前读出的字符相同的字符int n=1; //统计链表中字符个数for(int i=1;i<Input.length();i++){ch=Input[i]; //获得第i个字符do{pfront=pfront->next;if((int)pfront->character == (int)ch) //如果在链表中有与当前字符相同的字符,该字符权值加1{pfront->count++;replace=1;break;}}while(pfront->next);if(!replace) //如果在链表中没找到与当前字符相同的字符,则将该字符作为新成员插入链表{Node* New=new Node;if(!New)throw exception("堆空间用尽");New->character=ch;New->count=1;New->next=pfront->next;pfront->next=New;n++;}pfront=front; //重置pfront和replace变量为默认值replace=0;}tSize=n; //tSize记录的是编码表中字符个数CreateHTree(front,n); //创建哈夫曼树pfront=front;while(pfront) //销毁整个链表{front=pfront;pfront=pfront->next;delete front;}时间复杂度:若输入的字符串长度为n,则时间复杂度为O(n)2.创建哈夫曼树(void HuffmanTree::CreateCodeTable(Node *p))算法伪代码:1.创建一个长度为2*tSize-1的三叉链表2.将存储字符及其权值的链表中的字符逐个写入三叉链表的前tSize个结点的data域,并将对应结点的孩子域和双亲域赋为空3.从三叉链表的第tSize个结点开始,i=tSize3.1从存储字符及其权值的链表中取出两个权值最小的结点x,y,记录其下标x,y。
3.2将下标为x和y的哈夫曼树的结点的双亲设置为第i个结点3.3将下标为x的结点设置为i结点的左孩子,将下标为y的结点设置为i结点的右孩子,i结点的权值为x结点的权值加上y结点的权值,i结点的双亲设置为空4. 根据哈夫曼树创建编码表源代码:void HuffmanTree::CreateHTree(Node *p,int n){root= new BiNode<int>[2*n-1]; //初始化哈夫曼树Node *front=p->next;if(n==0)throw exception("没有输入字符");for(int i=0;i<n;i++) //将n个字符的权值存储在哈夫曼树数组的前n位{root[i].data=front->count;root[i].lchild=-1;root[i].rchild=-1;root[i].parent=-1;front=front->next;}front=p;int New1,New2;for(i=n;i<2*n-1;i++){SelectMin(New1,New2,0,i); //从0~i中选出两个权值最小的结点root[New1].parent=root[New2].parent=i; //用两个权值最小的结点生成新结点,新节点为其双亲root[i].data=root[New1].data+root[New2].data;//新结点的权值为其孩子的权值的和root[i].lchild=New1;root[i].rchild=New2;root[i].parent=-1;}CreateCodeTable(p); //创建编码表}时间复杂度:在选取两个权值最小的结点的函数中要遍历链表,时间复杂度为O(n),故该函数的时间复杂度为O(n^2)3.创建编码表(void HuffmanTree::CreateCodeTable(Node *p))算法伪代码:1.初始化编码表2.初始化一个指针,从链表的头结点开始,遍历整个链表2.1 将链表中指针当前所指的结点包含的字符写入编码表中2.2 得到该结点对应的哈夫曼树的叶子结点及其双亲2.3 如果哈夫曼树只有一个叶子结点,将其字符对应编码设置为02.4 如果不止一个叶子结点,从当前叶子结点开始判断2.4.1 如果当前叶子结点是其双亲的左孩子,则其对应的编码为0,否则为12.4.2 child指针指向叶子结点的双亲,parent指针指向child指针的双亲,重复2.4.1的操作2.5 将已完成的编码倒序2.6 取得链表中的下一个字符3.输出编码表源代码:void HuffmanTree::CreateCodeTable(Node *p){HCodeTable=new HCode[tSize]; //初始化编码表Node *front=p->next;for(int i=0;i<tSize;i++){HCodeTable[i].data=front->character; //将第i个字符写入编码表int child=i; //得到第i个字符对应的叶子节点int parent=root[i].parent; //得到第i个字符对应的叶子节点的双亲int k=0;if(tSize==1) //如果文本中只有一种字符,它的编码为0 {HCodeTable[i].code[k]='0';k++;}while(parent!=-1) //从第i个字符对应的叶子节点开始,寻找它到根结点的路径{if(child==root[parent].lchild) //如果当前结点为双亲的左孩子,则编码为0,否则编码为1HCodeTable[i].code[k]='0';elseHCodeTable[i].code[k]='1';k++;child=parent;parent=root[child].parent;}HCodeTable[i].code[k]='\0';Reverse(HCodeTable[i].code); //将编码逆置front=front->next; //得到下一个字符}cout<<"编码表为:"<<endl;for(i=0;i<tSize;i++) //输出编码表{cout<<HCodeTable[i].data<<' '<<HCodeTable[i].code<<endl;}}时间复杂度:需要遍历哈夫曼树获取编码,时间复杂度为O(n^2)4. 选择两个最小权值的函数(void HuffmanTree::SelectMin(int &New1,int&New2,int begin,int end))算法伪代码:1.从下标为begin的结点开始,寻找第一个没用过的结点2.遍历哈夫曼树中从下标为begin到下标为end的结点序列,寻找没用过的同时权值又是最小的结点。