当前位置:
文档之家› 第九讲MATLAB基本统计分析
第九讲MATLAB基本统计分析
( - 3 , 3 ) 以外的点 为异常点.
四. 矩统计量 在MATLAB中给出了计算矩统计量、峰度、偏度 和变异系数的函数命令,如下表所示:
名称 命令 n阶中心矩 moment(x,n) 峰度系数 kurtosis(x) 偏度系数 Skewness(x) 变异系数 Std(x)./abs(mean(x))
775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851];
变异系数用于刻画数据的变化大小,不同指标的变 异系数常用来计算客观性权重. 例7. 下表给出了15种资产的收益率ri(%)和风险损 失率qi(%),计算峰度与偏度.
Si ri(%) qi(%) Si ri(%) qi(%)
S1
S2 S3 S4 S5 S6 S7
9.6
18.5 49.4 23.9 8.1 14 40.7
中位数
切尾平均 几何平均
599.5
600.64 559.68
方差
标准差 四分位极差
38663.03
196.629 243.5
调和平均
499.06
平均绝对偏差
150.86
例5. 已知数据:1,1,1,1,1,1,100;计算其数 据特征,由此你有何发现? 解:x=[1,1,1,1,1,1,100]; y=[mean(x),median(x),geomean(x),harmmean(x),trimmean(x,25);
1.数据的下、上截断点
计算上、下截断点的公式如下: Q1 1.5R , Q 3 1.5R
其中,R为四分位极差,Q1 , Q 3 分别称为下四分位数与 上四分位数 . 对于0≤p<1,和样本容量为n的样本 X1 , X 2 ,..., Xn其 次序统计量记为: X (1) , X (2) , ..., X (n) 于是计算样本的P分位数的公式为:
其中,x为数据,n为阶数,若x为矩阵可得矩阵各列的 矩、峰度、偏度和变异系数,注意计算变异系数的公 式应为:Std(x)./abs(mean(x))(同维向量应该点除). 偏度系数s等于3阶中心矩与标准差的3次幂的比,用 于刻画数据分布的对称性,当s>0时称正偏,当s<0时称 负偏,当s接近于零时,可以认为分布是对称的.峰度系 数k等于4阶中心矩与标准差的4次幂的比,它反映了分 布曲线的陡缓程度,正态分布的峰度为3,若k>3则表明 数据分布有较厚的尾部.
例3. 若X~N(2,4),作出 X在[-1,3]上的曲线 解: normspec([-1,3],2,2) 图形如右图所示
(图7.1)
二. 数据特征 设 X1 , X 2 ,..., Xn 是取自总体X的一个简单随机样本, x1 , x 2 ,..., x n 在n次抽样以后得到样本的一组观测值 我 们通过对数据的分析研究可以得到总体X的有关信息, 在MATLAB中有专门的函数分析数据特征,如下表所 示.
100 200 300 400 500 600 700 800 900 1000 1100 Data
图7.3 从图7.2所示的直方图发现数据比较接近于正态分布, 我们用命令normplot(a(:))进行检验. 从图7.3 中可见数据点基本上都位于直线上,故可认 为该数据服从正态分布,由于已经计算出该数据的均 值为600,标准差为196.629,所以数据服从
N 600 ,196.629 2
图7.2
正态分布的检验: 1.大样本
h=jbtest(x),
h=0,接受正态分布,h=1拒绝正态分布 2.小样本 h=lillietest(x), h=0,接受正态分布,h=1拒绝正态分布
range(x),var(x),std(x),iqr(x),mad(x)]
计算结果为: y= 15.143 1 1.9307 1.1647 1
99
1400.1 37.418 0 24.245
如果例5的数据全部为1,则各种平均值都应等于1, 所有的变异特征全部为零,由于有一个异常值100,于 是导致上述的一些特征受影响(不稳健),但是中位数、 切尾平均与四分位极差没有改变,它们对异常值是稳健 的. 三. 异常值的判别 在探索性数据分析时,有一种判别异常值的简单 方法,首先计算数据的下、上截断点,数据中小于下截 断点的数据为特小值,大于上截断点的数据为特大值, 二者都是异常值.
超几何分布
对数正态分布
hygepdf
lognpdf
非中心T分布
非中心卡方布
nctpdf
ncx2pdf
如果将上述命令中的后缀pdf分别改为cdf,inv,rnd,stat 就得到相应 的随机变量的分布函数、分位数、随机数的生成以及均值与方差.
我们利用MATLAB中的函数来计算正态分布的分 布函数、概率密度函数值、做出密度函数曲线、分位数. 1.计算分布函数与概率密度函数值: 若 X ~ N( , 2 ), 则 F( x) P{ X x} 在MATLAB中计算上述分布函数的命令为: P = NORMCDF(x,mu,sigma)
已知X的均值和标准差及概率p=P{X<x},求x的命令为:
X = NORMINV(P,MU,SIGMA) 例2. X~N(1,0.04) , p{X<x}=0.6827 求x 解:x = norminv(0.6827,1,0.2)= 1.0951 NORMSPEC([a,b],MU,SIGMA)
用于做出随机变量在区间[a,b]上的正态密度曲线
计算该数据特征. 解:a=[459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680
926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659
位置特征 算术平均 MATLAB函数 mean 变异特征 极差 MATLAB函数 range
中位数 切尾平均
几何平均 调和平均
median trimmean
geomean harmmean
方差 标准差
四分位极差 平均绝对偏差
var std
iqr mad
例4. 已知数据:
459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851
第九讲
数据的基本统计分析
一. 随机变量与分布
随机变量 名称 Beta分布 二项分布 卡方分布 指数分布 F分布 伽马分布 几何分布 MATLAB 密度函数 betapdf binopdf chi2pdf exppdf fpdf gampdf geopdf 随机变量 名称 标准正态分布 泊松分布 瑞利分布 T分布 均匀分布 Weibull分布 非中心F分布 MATLAB 密度函数 normpdf poisspdf raylpdf tpdf unifpdf weibpdf ncfpdf
Default values for MU and SIGMA are 0 and 1 respectively.
例1 已知 X ~ N( 2,0.5 2 ) 试求:P{ X 3}, P{1 X 2} 解:normcdf(3,2,0.5)=mcdf(1,2,0.5)= 0.4772 2. 做出密度函数曲线、求分位数
解:输入命令hist( a(:),30)得到图7.2
10 9 8 7 6 5 4 3 2 1 0 0 200 400 600 800 1000 1200
Normal Probability Plot 0.997 0.99 0.98 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.02 0.01 0.003
b=a(:); %将矩阵变成数列 T=[mean(b),median(b), trimmean(b,10), geomean(b), harmmean(b),range(b),var(b),std(b),iqr(b),mad(b)]
计算结果如下:
位置特征 算术平均 计算结果 600 变异特征 极差 计算结果 1069
y=[42,54,60,42,1.2,39,68,33.4,53.3,40,31,5.5,46,5.3,23]; sx=skewness(x)= 0.4624, kx=kurtosis(x)= 1.8547, sy=skewness(y)= -0.4215, ky=kurtosis(y)= 2.2506 从计算结果可知:收益率是正偏,而风险损失率为负偏; 二者峰度都小于3属于平阔峰. 五. 直方图与概率纸检验函数 1.直方图: 为了直观地了解随机变量的分布特征,如对称性, 峰值等,直方图是广泛使用的方法. 格式:hist(data,k). 说明:data是原始数据,该命令将区间(min(data), max(data))分成k等份,并描绘出频数直方图,k的缺省 值为10.