当前位置:文档之家› 《非参数统计》与MATLAB编程 第二章 描述性统计

《非参数统计》与MATLAB编程 第二章 描述性统计

第二章描述性统计2.1 表格法和图形法表2.1 灯丝寿命数据107 73 68 97 76 79 94 59 98 57 73 81 54 65 71 80 84 88 62 61 79 98 63 65 66 62 79 86 68 74 61 82 65 98 63 71 62 116 65 88 64 79 78 79 77 86 89 76 74 85 73 80 68 78 89 72 58 69 82 72 92 78 88 77 103 88 63 68 88 81 64 73 75 90 62 89 71 71 74 70 74 70 85 61 65 81 75 62 94 71 85 84 83 63 92 68 81 62 79 83 93 61 65 62 92 65 64 66 83 70 70 81 77 72 84 67 59 58 73 83 78 66 66 94 77 63 66 75 68 76 73 76 90 78 71 101 78 43 59 67 61 71 77 91 96 75 64 76 72 77 74 65 82 86 79 74 66 86 96 89 81 71 85 99 59 92 94 62 68 72 77 60 87 84 75 77 51 45 63 102 85 67 87 80 84 93 69 76 89 75 59 77 83 68 72 67 92 89 82 96a =Columns 1 through 17107 73 68 97 76 79 94 59 98 57 7381 54 65 71 80 8479 98 63 65 66 62 79 86 68 74 6182 65 98 63 71 6264 79 78 79 77 86 89 76 74 85 7380 68 78 89 72 5892 78 88 77 103 88 63 68 88 81 6473 75 90 62 89 7174 70 85 61 65 81 75 62 94 71 8584 83 63 92 68 8193 61 65 62 92 65 64 66 83 70 7081 77 72 84 67 5978 66 66 94 77 63 66 75 68 76 7376 90 78 71 101 7861 71 77 91 96 75 64 76 72 77 74 65 82 86 79 74 6681 71 85 99 59 92 94 62 68 72 77 60 87 84 75 77 5185 67 87 80 84 93 69 76 89 75 59 77 83 68 72 67 92Columns 18 through 2088 62 61116 65 8869 82 7271 74 7062 79 8358 73 8343 59 6786 96 8945 63 10289 82 96注:a不能复制到MATLAB中。

b=reshape(a,200,1);[min(b) max(b)]ans =43 116n=histc(b,[40,50,60,70,80,90,100,110,120])n =2105264452241n/200ans =0.01000.05000.26000.32000.22500.11000.02000.0050bar([40,50,60,70,80,90,100,110,120],n,'histc')表2.2 灯丝寿命数据频率分布灯丝寿命(小时)个数频率(%)40—50 2 150—60 10 560—70 52 2670—80 64 3280—90 45 22.590—100 22 11100—110 4 2110-120 1 0.5合计200 100c=[2 32 24 19 10 6 3 2 1 1]bar(c)表2.7 赔款样本数据直方图x=[1 2 2 2 2 3 3 5 7 8 9];y=[1 1 2 3 4 1 2 1 1 1 1];plot(x,y,'*','markersize',30,'linewidth',4)axis([0,10,0,5])图2.8[mean([1,2,2,2,2,3,3,5,7,8,9]) median([1,2,2,2,2,3,3,5,7,8,9])] ans =4 3切尾均值:trimmeantrimmean(x,percent) ,其中percent为0到100。

当x为向量时,切尾均值为:先去掉x的percent/2的最大值和最小值,再求算术平均值。

注意:若length(x)×percent/2恰好为整数时,则就x按大小排序后,两端去掉length(x)×percent/2个数,如果不是整数,则去掉length(x)×percent/2四舍五入数(若小数点后正好等于5,则取小的整数,如1.5还是取1)。

如:a=[4 9 12.4 23 33.5 45 56 67 76 99] 回车trimmean(a,50) 回车ans =39.4833(25/2)%×length(x)=2.5,两端切掉2个数。

即等于:mean([12.4 23 33.5 45 56 67]) 回车ans =39.4833然后当:trimmean(a,51) 回车ans =39.3750(51/2)%×length(x)=2.55,即两端切掉3个数。

mean([23 33.5 45 56]) 回车ans =39.3750Trimmean 也可处理矩阵,不过只是计算矩阵每列的切尾均值。

继续上面,如:b=a';c=[1:10]';d=[b,c];trimmean(d,51) 回车ans =39.3750 5.50002.2.2 表示离散程度的数值 [var(b) std(b) range(b)] ans =145.4548 12.0605 73.0000百分位数:prctile(x,percent) ,其中percent 为0到100,x 可为向量或矩阵。

[prctile(b,25) prctile(b,75)] ans =66.5000 84.0000四分位间距:iqr(x) 其中x 可为向量或矩阵,当x 为向量时,iqr(x)为x 的75%的百分位数减去25%的百分位数。

iqr(b) ans = 17.5000V a l u e sColumn NumberX-上四分位数>1.5IQR 或下四分位数-X>1.5IQR 时 ,X 为野值。

称“下四分位数-1.5IQR”和“上四分位数+1.5IQR”两个数为内篱笆,“下四分位数-3IQR”和“上四分位数+3IQR”两个数为外篱笆,位于内、外篱笆之间的数称为弱异常值,而在外篱笆的数称为强异常值。

区间估计:双侧均值的区间估计:[h,sig,ci,stats]=ttest(b,75,0.05)% 95%的置信区间h =sig =0.2197ci =74.3683 77.7317stats =tstat: 1.2312df: 199sd: 12.0605[mean(b)-tinv(0.975,199)*std(b)/(200^0.5)mean(b)+tinv(0.975,199)*std(b)/(200^0.5)]ans =74.3683 77.7317单侧区间估计:[h,sig,ci,stats]=ttest(b,75,0.05,1)h =sig =0.1098ci =74.6407 Infstats =tstat: 1.2312df: 199sd: 12.0605[h,sig,ci,stats]=ttest(b,75,0.05,-1)h =sig =0.8902ci =-Inf 77.4593stats =tstat: 1.2312df: 199sd: 12.0605[mean(b)-tinv(0.95,199)*std(b)/(200^0.5) mean(b)+tinv(0.95,199)*std(b)/(200^0.5)] ans =74.6407 77.4593§2.2.2 偏度 format longskewness(b)%不修正的偏度系数 ans =0.27494548340412 moment(b,3)/std(b,1)^3 ans =0.27494548340412 moment(b,3)/moment(b,2)^1.5 ans =0.27494548340412(sum((b-mean(b)).^3)/200)/std(b,1)^3 ans =0.27494548340412 不修正的偏度系数:()()()2/32333//∑∑--==n x x nx x u skewness σskewness(b,0) %修正的偏度系数 ans =0.27702753367296200*(200/(199*198))*moment(b,3)/std(b)^3 ans =0.27702753367296 修正的偏度系数:()3)2(1∑⎪⎪⎭⎫ ⎝⎛---=s x x n n n skewness i 2*(1-normcdf(bs*sqrt(200/6)))ans =0.10972748638965在0.05显著性水平下,接受原假设。

为正态分布。

§2.2.5 峰度x = -6:0.1:6;y = tpdf(x,8);z = normpdf(x,0,8/6);plot(x,y,'-.',x,z,'-','linewidth',5)legend('T 分布','正态分布')图2.12 正态分布和t 分布x1 = 3.5:0.01:6;y1= tpdf(x1,8);z1= normpdf(x1,0,8/6);plot(x1,y1,'-.',x1,z1,'-','linewidth',5)legend('T分布','正态分布')图2.13 正态分布和t分布的尾部kurtosis(b)ans =3.00483762647840moment(b,4)/std(b,1)^4ans =3.00483762647840kurtosis(b,0)ans =3.03557145622493ku=kurtosis(b,0)ku =3.035571456224932*(1-normcdf((ku-3)*sqrt(200/24)))ans =0.91821222565534。

相关主题