信息论与编码课程设计报告设计题目:统计信源熵、香农编码与费诺编码专业班级:XXXXXXXXXXXX姓名:XXXXXXXXXXXX学号:XXXXXXXXXXXX指导老师:XXXXXXXXXXXX成绩:时间:2015年3月31日目录一、设计任务与要求 (2)二、设计思路 (2)三、设计流程图 (5)四、程序及结果 (7)五、心得体会 (11)六、参考文献 (12)附录 (13)一、 设计任务与要求1. 统计信源熵要求:统计任意文本文件中各字符(不区分大小写)数量,计算字符概率,并计算信源熵。
2. 香农编码要求:任意输入消息概率,利用香农编码方法进行编码,并计算信源熵和编码效率。
3. 费诺编码要求:任意输入消息概率,利用费诺编码方法进行编码,并计算信源熵和编码效率。
二、 设计思路1、统计信源熵:统计信源熵就是对一篇英文文章中的i 种字符(包括标点符号及空格,英文字母不区分大小写)统计其出现的次数count i (),然后计算其出现的概率()p i ,最后由信源熵计算公式:1()()log ()ni i n H x p x p x ==-∑算出信源熵()H x 。
所以整体步骤就是先统计出文章中总的字符数,然后统计每种字符的数目,直到算出所有种类的字符的个数,进而算出每种字符的概率,再由信源熵计算公式计算出信源熵。
在这里我选择用Matlab 来计算信源熵,因为Matlab 中系统自带了许多文件操作和字符串操作函数,其计算功能强大,所以计算信源熵很是简单。
2、香农编码信源编码模型:信源编码就是从信源符号到码符号的一种映射f ,它把信源输出的符号i a 变换成码元序列i x 。
1,2,...,,i i Nf a i q x =→:1:{,...,}q S s a a ∈ 信源 12{,...,}lii i i i X x x x = 码元1{,...,}1,2,...,i q S a a i N ∈= 1,2,...,N i q =1:{,...,}r X x x x ∈ 码符号N 次扩展信源无失真编码器凡是能载荷一定的信息量,且码字的平均长度最短,可分离的变长码的码字集合都可以称为最佳码。
为此必须将概率大的信息符号编以短的码字,概率小的符号编以长的码字,使得平均码字长度最短。
能获得最佳码的编码方法主要有:香农(Shannon )、费诺(Fano )、哈夫曼(Huffman )编码等。
香农第一定理: 离散无记忆信源为1212......()()()......q q s s s S p s p s p s P ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦熵()H S ,其N 次扩展为1212......()()()......N q q S p p p P αααααα⎡⎤⎡⎤=⎢⎥⎢⎥⎢⎣⎦⎦⎣熵为()N H S ,码符号集为12(,,...,)r Xx x x =。
先对信源N S 进行编码,总可以找到一种编码方法,构成唯一可译码,使S 中每个信源符号所需的平均码长满足()1()log log N L H S H S r N N r+>≥ 且当N →∞时有()()log lim N r N L H S H S N r →∞== ,L 是平均码长1()Nqi i i L p αλ==∑,i λ是i α对应的码字长度。
香农编码方法:(1) 将信源消息符号按其出现的概率大小依次排列:12...n p p p ≥≥ (2)确定满足下列不等式整数码长i K 为()()1i i i lb p K lb p -≤≤-+(3)为了编成唯一可译码,计算第i 个消息的累加概率为11()i i k k P p a -==∑(4)将累加概率i P 变成二进制数。
(5)取i P 二进制数小数点后i K 位即为该消息符号的二进制码字。
3、费诺编码方法(1)将信源消息符号按其出现的概率大小依次排列:12...n p p p ≥≥ (2)将依次排列的信源符号按概率值分为两大组,使两个组的概率之和近似相同,并对各组赋予一个二进制码元“0”和“1”。
(3)将每一大组的信源符号再分为两组,使划分后的两个组的概率之和近似相同,并对各组赋予一个二进制符号“0”和“1”。
(4)如此重复,直至每个组只剩下一个信源符号为止。
(5)信源符号所对应的码字即为费诺码。
三、 设计流程图① ②由信源熵计算公式1()()log ()ni i n H x p x p x ==-∑计算出信源熵⑤ 2、香农编码输入概率矩阵根据公式调用函数计算码长3、费诺编码开始输入概率矩阵将每一大组的的概率重复上一步操作,直到每组只剩一个概率四、程序及结果1、统计信源熵的Matlab程序function h=entropy(p)clcfid=fopen('shuju.txt','r');%打开txt文件[ex,num]=fscanf(fid,'%c',inf)%读取二进制文件的数据,并将数据存入矩阵str1=lower(ex)%将字符串中的大写字母转换成小写字母sort_str1=sort(str1);%按照字符的ASCII值对字符串排序j=1;for i=1:length(sort_str1)-1%计算出字符串的种类if strcmp(sort_str1(i),sort_str1(i+1))~=1%比较两个字符串是否完全相等,相等是1,否则0j=j+1;str2(j)=sort_str1(i);endstr2(j+1)=sort_str1(i+1);endfor i = 1:length(str2)%length函数获取字符串长度str_num =strfind(sort_str1,str2(i));%strfind(S1,S2):寻找S2是否匹配S1,并返回S2的位置count1(i) = length(str_num);endstr2count=count1(3:end)p=count./sum(count)sum(-p.*log2(p))%计算信源熵待读取的英文:The Pressure of Graduate StudentsNow I am a post graduate student, I will graduate next year, so I start to find jobs recently, I feel so much pressure, though I have good education, I still get rejection from the companies. The pressure of graduate students are so heavy, the competition isso fierce that many students can’t get the ideal jobs. They should adjust their strategies.The pressure of graduate students is so heavy. On the one hand, they don’t have experience, so they don’t know how to get the job interview and miss many chances. On the other hand, there are more and more students have high education, some have received higher education, some have studies abroad which make their resumes stand out. Those average students don’t have advantages over the above mentioned ones.Average students need to make their resumes specially, so they can have the chance. They can describe their characteristic to fit the job, the employers will see this and give you the chance. Students can also make their internship experience stand out, becausethe employers pay special attention to it.The job pressure is heavy for every graduate student, if the students take the wise strategy, they can have more chances to get the job.程序运行结果:总共出现的字符种类: ,.abcdefghijklmnoprstuvwxy’每种字符对应出现的次数: [206 16 11 78 10 33 42161 10 20 65 53 8 5 16 21 58 64 16 55 80 113 36 20 8 3 20 4]每种字符出现的概率:[ 0.1672 0.0130 0.0089 0.0633 0.0081 0.0268 0.0341 0.1307 0.0081 0.0162 0.0528 0.0430 0.0065 0.0041 0.0130 0.0170 0.0471 0.0519 0.0130 0.0446 0.0649 0.0917 0.0292 0.0162 0.0065 0.0024 0.0162 0.0032]H x=4.1250信源熵:()2、香农编码程序function c=shannon(p)% p=[0.25 0.25 0.20 0.15 0.10 0.05];% shannon(p);[p,index]=sort(p);p=fliplr(p);%从大到小n=length(p);pa=0;%累加概率for i=2:npa(i)=pa(i-1)+p(i-1);endk=ceil(-log2(p));%码长计算c=cell(1,n);%生成元胞数组,存码字,是cell,跟上一行不一样for i=1:nc{i}= '';tmp=pa(i);for j=1:k(i)tmp=tmp * 2;if tmp>=1tmp=tmp - 1;c{i}(j)= '1';elsec{i}(j)= '0';endendend%p%pa%交换回原来的顺序c=fliplr(c);c(index)=c;fprintf('信源信息熵:\n');H=sum(-p.*log2(p))%计算信源熵fprintf('平均码长:\n');K=sum(p.*k)%计算平均码长fprintf('编码效率:\n');w=H./K%计算编码效率fprintf('码字:\n');c程序运行结果:p=[0.25 0.25 0.20 0.15 0.10 0.05];shannon(p);信源信息熵:H = 2.4232平均码长:K = 2.7000编码效率:w = 0.8975码字:c = '01' '00' '100' '101' '1101' '11110'3、费诺编码程序主程序function c=fano1(p)% p=[0.25 0.25 0.20 0.15 0.10 0.05]% c=fano1(p)n=size(p,2);if n==1c=cell(1,1);c{1}='';returnend[p,index]=sort(p);%按概率排序p=fliplr(p);total=sum(p);%总概率acc=0;%累积概率flag=0;%是否到达尾部的标志for i=1:n-1newacc=acc+p(i);if abs(total-2 * newacc)>=abs(total - 2*acc) flag=1;break;endacc=newacc;endif ~flagi=n;endsplit=i;%从分界点对两边的码递归做fanoc1=fano1(p(1:split-1));c2=fano1(p(split:n));c=cell(1,n);%添加前缀0,1for i=1:split-1c{i}=strcat('0',c1{i});endfor i = split:nc{i}=strcat('1',c2{i-split+1} );end%将顺序调整回去c=fliplr(c);c(index)=c;子程序function []=fano2(c,p)for i=1:length(c)%求平均码长count(i)=length(cell2mat(c(i)));endfprintf('信源信息熵:\n');H=sum(-p.*log2(p))%计算信源熵fprintf('平均码长:\n')K=sum(count.*p)%计算平均码长fprintf('编码效率:\n')w=H./K%计算编码效率fprintf('码字:\n')c程序运行结果:p=[0.25 0.25 0.20 0.15 0.10 0.05]c=fano1(p)fano2(c,p)p = 0.2500 0.2500 0.2000 0.1500 0.1000 0.0500c = '00' '01' '10' '110' '1110' '1111'信源信息熵:H = 2.4232平均码长:K = 2.4500编码效率:w = 0.9891码字:c = '00' '01' '10' '110' '1110' '1111'五、心得体会做这次课程设计前前后后花了三天时间,之前并没有用心想,只是看了看网上的资料,看人家都是用什么方法解决的。