实验12 数据的基本统计分析一、实验目的随机变量的分布函数,密度曲线,能进行初步的统计分析,大样本数据的处理,直方图.二、实验内容及要求pdf(probability density function.概率密度函数),cdf(cumulative distribution function.累积分布函数),rnd(Random),inv(Inverse),stat(Mean and variance,statistic)1. 随机变量与分布表1.12 密度函数与分布函数如果后缀pdf 分别改为cdf ,inv ,rnd ,stat 就得到相应的随机变量的累积分布函数、分位数、随机数的生成以及均值与方差.计算正态分布的分布函数、概率密度函数值、做出密度函数曲线、求出分位数的功能.【例1.110】 已知2~(2,0.5)X N ,试求:(1){}01P X <<,{}3P X ≤;(2){}0.6827______P X x x ==≤, . (2)做出[-2.5,3.5]上的概率密度曲线; 解:normcdf (,,)p x μσ= 算{}P X x ≤.(1){}01P X <<normcdf (1,2,0.5)normcdf (0,2,0.5)=-=0.0227 {}3P X ≤=normcdf (3,2,0.5)=0.9772 (2)计算正态分布的分位数利用:norminv(,,)x p μσ=norminv(0.6827,2,0.5)x == 2.23763116875765(3)函数normspec([,],,)p a b μσ=做出在[a ,b ]上的正态密度曲线:normspec([ 2.5,3.5],2,0.5)p =-Probability Between Limits is 0.99865Critical V alue0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -3-2-10 1 234图1.38 [-2.5,3.5]上的概率密度曲线2. 数据特征 设12,,,n X X X 是一个简单随机样本,样本的一组观测值12,,,n x x x ,函数分析数据特征,如表1.13所示.表1.13 函数【例1.111】已知数据:459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851计算其数据特征.解:>>a=[ 459, 362,…,310, 851];>>b=a(:) ;mean(b),median(b), trimmean(b,10), geomean(b), harmmean(b), range(b),var(b),std(b),iqr(b),mad(b)注意:切尾平均有两个输入,后者为百分数.结果如表1.14所示.表1.14 结果【例1.112】已知数据:1,1,1,1,1,1,100;计算其数据特征,由此你有何发现?解:>>x=[1,1,1,1,1,1,100];>>y=[mean(x),median(x),geomean(x),harmmean(x),trimmean(x,25);range(x),var(x),std(x),iqr(x),mad(x)]计算结果为:y=15.143 1 1.9307 1.1647 1 99 1400.1 37.4180 24.245如果数据全部为1,则各种平均值都应等于1,所有的变异特征全部为零,由于有一个异常值100,于是导致上述的一些特征受影响(不稳健),但是中位数、切尾平均与四分位极差没有改变,它们对异常值是稳健的.3 统计量计算矩统计量、峰度、偏度和变异系数的函数表1.15所示.表1.15 函数其中,x为数据,n为阶数,若x为矩阵可得矩阵各列的矩、峰度、偏度和变异系数,但是计算变异系数的公式应为:Std(x)./abs(mean(x))(同维向量应该点除).偏度系数s等于3阶中心矩与标准差的3次幂的比,用于刻画数据分布的对称性,当s>0时称正偏,当s<0时称负偏,当s接近于零时,可以认为分布是对称的.峰度系数k等于4阶中心矩与标准差的4次幂的比,它反映了分布曲线的陡缓程度,正态分布的峰度为3,若k>3则表明数据分布有较厚的尾部.变异系数用于刻画数据的变化大小,不同指标的变异系数常用来计算客观性权重.【例1.114】表1.16给出了15种资产的收益率r i(%)和风险损失率q i(%),计算峰度与偏度.表1.16 例题解:>>x=[9.6,18.5,49.4,23.9,8.1,14,40.7,31.2,33.6,36.8,11.8,9,35,9.4,15];>>y=[42,54,60,42,1.2,39,68,33.4,53.3,40,31,5.5,46,5.3,23];>>sx=skewness(x)= 0.4624, kx=kurtosis(x)= 1.8547,>>sy=skewness(y)= -0.4215, ky=kurtosis(y)= 2.2506从计算结果可知:收益率是正偏,而风险损失率为负偏;二者峰度都小于3属于平阔峰.4 有丢失数据时的统计量在解决实际问题时经常遇到有丢失数据的情形,在MATLAB中提供了NAN函数,用于有丢失数据时的统计量.nanmax % 忽略丢失数据NAN的最大值.nanmean% 忽略丢失数据NAN的均值.nanmedian% 忽略丢失数据NAN的中位数.nanmin % 忽略丢失数据NAN的最小值.nanstd % 忽略丢失数据NAN的标准差.nansum % 忽略丢失数据NAN的和.5 大样本数据的处理通常大样本数据有以下的处理方法.(1)标准化将某矩阵的各列(行)元素减去该列(行)的均值,再比上该列的标准差. 【例1.115】将表1.17中的数据标准化.表1.17 各地区“三资”工业企业主要经济效益指标(2001年)解:将数据粘贴到MATLAB的编辑窗口(即建立M文件中).a=[26.19,9.83,54.87,...,29.55,6.11,59.39,0.95,7.08, (94)25];此时,发现有一行数据不全(西藏),为了分析问题的方便,我们可以删除此行(用%),标准化编程如下:>>format long %此步是为了数据输出的数位比较多>>m1=mean(a(2:31,:)); %求各列均值(除去第一行元素)>>m=m1(ones(30,1),:); %30行矩阵各行都是m1>>s1=std(a(2:31,:)); %求各列标准差(除去第一行元素)>>s=s1(ones(30,1),:); %30行矩阵各行都是s1>>A=(a(2:31,:)-m)./s %标准化(2)都与某一个数据进行比较(比如都与全国的各项指标进行比较)>>b1=a(1,:);>>b=b1(ones(30,1),:);>>B=(a(2:31,:)-b)./b6 直方图与概率纸检验函数为了直观地了解随机变量的分布特征,直方图是广泛使用的方法.格式:hist(data,k).说明:data是原始数据,该命令将区间(min(data),max(data))分成k等份,并描绘出频数直方图,k的缺省值为10. 如果需要事先给出小区间,则将区间的中点存放在向量nb然后用命令:[n,x] = hist(data),或[n,x] = hist (data,k),或[n,x] = hist (data,nb),其中,n返回k个小区间的频数,x返回小区间的中点.在MATLAB中的概率纸检验函数.格式:normplot(data)%如果数据data服从正态分布,则做出的图形基本上都位于一条直线上.weibplot(data)%如果数据data 服从威布尔分布,则做出的图形基本上都位于一条直线上,【例1.116】 作出例1.111数据的直方图,该数据服从正态分布还是威布尔分布? 解:输入命令hist( a (:),30)得到图1.39.0 200 400 600 800 1000 1200 10987654321图1.39 直方图从图1.39所示的直方图发现数据比较接近于正态分布,如何检验这一猜测,我们利用MATLAB 命令normplot(a(:))进行检验. Normal Probability PlotData 100 200 300 400 500 600 700 800 900 1000 1100 0.997 0.99 0.980.950.900.750.500.250.100.050.020.01 0.003图1.40 例1.111数据的图形从图1.40中可见数据点基本上都位于直线上,故可认为该数据服从正态分布,由于已经计算出该数据的均值为600,标准差为196.629,所以数据服从2N.(600,196.629)。