《数据分析》实验报告班级:07信计0班学号:姓名:实验日期2010-3-11 实验地点:实验楼505实验名称:样本数据的特征分析使用软件名称:MATLAB实验目的1.熟练掌握利用Matlab软件计算均值、方差、协方差、相关系数、标准差与变异系数、偏度与峰度,中位数、分位数、三均值、四分位极差与极差;2.熟练掌握jbtest与lillietest关于一元数据的正态性检验;3.掌握统计作图方法;4.掌握多元数据的数字特征与相关矩阵的处理方法;实验内容安徽省1990-2004年万元工业GDP废气排放量、废水排放量、固体废物排放量以及用于污染治理的投入经费比重见表6.1.1,解决以下问题:表6.1.1废气、废水、固体废物排放量及污染治理的投入经费占GDP比重年份万元工业GDP废气排放量万元工业GDP固体物排放量万元工业GDP废水排放量环境污染治理投资占GDP比重(立方米)(千克)(吨)(%)1990 104254.40 519.48 441.65 0.181991 94415.00 476.97 398.19 0.261992 89317.41 119.45 332.14 0.231993 63012.42 67.93 203.91 0.201994 45435.04 7.86 128.20 0.171995 46383.42 12.45 113.39 0.221996 39874.19 13.24 87.12 0.151997 38412.85 37.97 76.98 0.211998 35270.79 45.36 59.68 0.111999 35200.76 34.93 60.82 0.152000 35848.97 1.82 57.35 0.192001 40348.43 1.17 53.06 0.112002 40392.96 0.16 50.96 0.122003 37237.13 0.05 43.94 0.152004 34176.27 0.06 36.90 0.131.计算各指标的均值、方差、标准差、变异系数以及相关系数矩阵;2.计算各指标的偏度、峰度、三均值以及极差;3.做出各指标数据直方图并检验该数据是否服从正态分布?若不服从正态分布,利用boxcox变换以后给出该数据的密度函数;4.上网查找1990-2004江苏省万元工业GDP废气排放量,安徽省与江苏省是否服从同样的分布?程序如下:clear;clcformat bank%保留两位小数%%%%%%%%%%%%%%%%安徽省数据%%%%%%%%%%%%%%%%%%A=[104254.40 519.48 441.65 0.1894415.00 476.97 398.19 0.2689317.41 119.45 332.14 0.2363012.42 67.93 203.91 0.2045435.04 7.86 128.20 0.1746383.42 12.45 113.39 0.2239874.19 13.24 87.12 0.1538412.85 37.97 76.98 0.2135270.79 45.36 59.68 0.1135200.76 34.93 60.82 0.1535848.97 1.82 57.35 0.1940348.43 1.17 53.06 0.1140392.96 0.16 50.96 0.1237237.13 0.05 43.94 0.1534176.27 0.06 36.90 0.13];%计算各指标的均值、方差、标准差、变异系数、偏度、峰度以及极差A1=[mean(A);var(A);std(A);std(A)./mean(A);skewness(A,0);kurtosis(A,0)-3;range( A)]%三均值A2=[1/4 1/2 1/4]*prctile(A,[25 50 75])%计算各指标的相关系数矩阵A3=corrcoef(A)%做出各指标数据直方图subplot(221),histfit(A(:,1),8)subplot(222),histfit(A(:,2),8)subplot(223),histfit(A(:,3),8)subplot(224),histfit(A(:,4),7)%检验该数据是否服从正态分布for i=1:4[h(i),p(i),lstat(i),cv(i)]=lillietest(A(:,i),0.05);endh,p%计算出前三列不服从正态分布,利用boxcox变换以后给出该数据的密度函数[t1,I1]=boxcox(A(:,1))[t2,I2]=boxcox(A(:,2))[t3,I3]=boxcox(A(:,3))%%%%%%%%%%%%%%%%江苏省数据%%%%%%%%%%%%%%%%%J=[5047.00 24.23 2234.005730.00 24.00 2077.005352.00 22.49 2450.005202.00 21.16 2323.005772.14 21.16 2725.007872.11 22.02 2883.007450.81 21.97 2891.008164.24 22.01 2857.007487.85 20.29 2944.008353.93 20.11 2896.009078.20 20.19 3038.0013343.99 27.10 3553.0014286.46 26.30 3796.0014632.69 24.75 3893.7017818.42 26.35 4672.5320196.58 29.63 5757.37];%检验该数据是否服从正态分布for i=1:3[h1(i),p1(i),lstat1(i),cv1(i)]=lillietest(J(:,i),0.05);endh1,p1%计算出第一、三列不服从正态分布,利用boxcox变换以后给出该数据的密度函数[t11,I11]=boxcox(J(:,1))[t33,I33]=boxcox(J(:,3)实1.各指标的均值、方差、标准差、变异系数、偏度、峰度、极差和三均值如下表:指标数字特征万元工业GDP废气排放量(3m)万元工业GDP固体物排放(kg)万元工业GDP废水排放量(t)环境污染治理投资占GDP比重(%)均值51972.0089.26142.950.17方差577053049.9028703.4718645.500.00标准差24021.93169.42136.550.05变异系数0.46 1.900.960.27偏度 1.44 2.25 1.440.29验结果分析峰度0.57 3.870.67-0.83极差70078.13519.43404.750.15三均值43937.01 22.52 98.27 0.17相关系数矩阵为:⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=165.049.062.065.0190.099.049.090.0189.062.099.089.01R2.各指标数据的直方图如下:-5051015x 104510-5000500100051015-5000500100024681000.10.20.30.412343.经检验可知:安徽省万元工业GDP废气排放量、废水排放量、固体废物排放量数据不服从正态分布,而用于污染治理的投入经费数据服从正态分布。
前三列数据利用boxcox变换以后(解得-0.610.09,-2.39,321===λλλ)服从正态分布,而变换公式为:λλ/)1(-=xy,故密度函数为:)2)(exp(21)(22σμπσ--=yyf,则原始数据的密度函数为:)2)1(exp(2)(2221λσλμσπλλ---=-xxxf。
4.经检验可知:江苏省万元工业GDP废气排放量、固体废物排放量数据不服从正态分布,而废水排放量服从正态分布。
附:表 1990-2005年万元工业GDP废气排放量、废水排放量、固体废物排放量时间工业废气排放量(亿立方米)工业废水排放量(亿吨)工业固体废物排放量(万吨)19905047.00 24.23 2234.00 19915730.00 24.00 2077.00 1992 5352.00 22.49 2450.00 1993 5202.00 21.16 2323.00 1994 5772.14 21.16 2725.00 1995 7872.11 22.02 2883.00 1996 7450.81 21.97 2891.00 1997 8164.24 22.01 2857.00 1998 7487.85 20.29 2944.00 1999 8353.93 20.11 2896.00 2000 9078.20 20.19 3038.00 200113343.99 27.10 3553.00 200214286.46 26.30 3796.00 200314632.69 24.75 3893.70 200417818.42 26.35 4672.53 200520196.58 29.63 5757.37教师评语成绩日期:2010年3月。