统计数据的描述性分析一、实验目的熟悉在matlab中实现数据的统计描述方法,掌握基本统计命令:样本均值、样本中位数、样本标准差、样本方差、概率密度函数pdf、概率分布函数df、随机数生成rnd。
二、实验内容1 、频数表和直方图数据输入,将你班的任意科目考试成绩输入>> data=[91 78 90 88 76 81 77 74];>> [N,X]=hist(data,5)N =3 1 1 0 3X =75.7000 79.1000 82.5000 85.9000 89.3000>> hist(data,5)2、基本统计量1) 样本均值语法: m=mean(x)若x 为向量,返回结果m是x 中元素的均值;若x 为矩阵,返回结果m是行向量,它包含x 每列数据的均值。
2) 样本中位数语法: m=median(x)若x 为向量,返回结果m是x 中元素的中位数;若x 为矩阵,返回结果m是行向量,它包含x 每列数据的中位数3) 样本标准差语法:y=std(x)若x 为向量,返回结果y 是x 中元素的标准差;若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的标准差std(x)运用n-1 进行标准化处理,n是样本的个数。
4) 样本方差语法:y=var(x); y=var(x,1)若x 为向量,返回结果y 是x 中元素的方差;若x 为矩阵,返回结果y 是行向量,它包含x 每列数据的方差var(x)运用n-1 进行标准化处理(满足无偏估计的要求),n 是样本的个数。
var(x,1)运用n 进行标准化处理,生成关于样本均值的二阶矩。
5) 样本的极差(最大之和最小值之差)语法:z= range(x)返回结果z是数组x 的极差。
6) 样本的偏度语法:s=skewness(x)说明:偏度反映分布的对称性,s>0 称为右偏态,此时数据位于均值右边的比左边的多;s<0,情况相反;s 接近0 则可认为分布是对称的。
7) 样本的峰度语法:k= kurtosis(x)说明:正态分布峰度是3,若k 比3 大得多,表示分布有沉重的尾巴,即样本中含有较多远离均值的数据,峰度可以作衡量偏离正态分布的尺度之一。
>> mean(data) ,ans =81.8750>> median(data) ans =79.5000>> std(data)ans =6.7915>> var(data)ans =46.1250>>range(data) ans =17>> skewness(data) ans =0.3218>> k= kurtosis(data)k =1.4217作为研究杨树形状的一部分,测定20 株杨树树叶,每个叶片测定了四个变量,下表第一行为叶片长度,第二行为叶片2/3处宽,第三行为叶片1/3 处宽,第四行为叶片1/2处宽,计算数据的平均数、标准差、方差、极差及偏度和峰度。
x =[108 90 130 114 113 120 87 94 115 90 117 134 150 140 126 118 136 145 161 155;95 95 95 85 87 90 67 66 84 75 60 73 73 64 75 43 55 63 64 60;118 117 140 113 121 122 97 88 118 103 84 104 110 95 96 59 89 9 112 100;110 110 125 108 110 114 88 86 106 96 76 92 96 87 90 52 75 84 94 83] >>mean(x')ans =122.1500 73.4500 99.7500 94.1000>> median(x')ans =119.0000 73.0000 103.5000 93.0000>> std(x')ans =21.9552 14.7165 27.5602 16.7266>> var(x) , >> range(x) , >> skewness(x')ans =0.0064 -0.0529 -1.8406 -0.43023、几个重要的概率分布Matlab 统计工具箱中有20 种概率分布,主要的几种分布命令字符:norm(正态分布),exp(指数分布),poiss(泊松分布),beta(B 分布) ,weib(威布尔) , chi2(x2卡方分布),t (T 分布) ,f (F 分布) 对每一种分布都提供了5 类函数,其函数命令的字符是:pdf(概率密度),cdf(概率分布),inv(逆概率分布),stat(均值和方差),rnd(随机数生成)当需要一种分布的某一类函数时,将以上所列的分布命令字符和函数命令的字符接起来,并输入自变量和参数就行了,例如1)计算正态分布概率密度函数:语法:p=normpdf(x,mu,sigma)说明:计算均值mu、标准差sigma 的正态分布在x 点概率密度p=p(x)。
>> x=-6:0.01:6; y=normpdf(x);z=normpdf(x,0,2);>> plot(x,y,x,z),gtext('N(0,1)'),gtext('N(0,2^2)')>> x=0:0.01:20; y=chi2pdf(x,5);z=chi2pdf(x,10);>> plot(x,y,x,z),gtext('chi2(5)'),gtext('chi2(10)')>> x=0:0.01:3; y=fpdf(x,10,50);z=fpdf(x,10,5); >> plot(x,y,x,z),gtext('F(10,50)'),gtext('F(10,5)')2)计算正态分布的累积分布函数语法:Y=normcdf(X,mu sigma)说明:根据相应的均值mu 和方差sigma 计算X 中每个值的正态分布的累积分布函数值。
>> P=normcdf(2)-normcdf(-2)P =0.95453)计算正态分布的逆累积分布函数语法:X=norminv(P,mu sigma)说明:根据相应的,mu 和sigma 计算正态分布中累积分布概率值为P 的正态分布对应点。
P中的值必须位于[0,1]区间上。
>> x=norminv(0.5,0,1)x =>> x=norminv([0.025 0.975],0,1)x =-1.9600 1.96004)二项分布均值和方差语法:[m,v]=binostat (N,P)说明:返回二项分布的均值m和方差v>> [m,v]=binostat(500,0.01)m =5v =4.95005)生成服从正态分布的随机数语法:R=normrnd(mu,sigma,m,n)说明:生成m*n形式的正态分布的随机矩阵。
>> R=normrnd(70,25,30,1)R =59.185928.360473.133377.191941.338299.772999.729169.059278.182374.366065.332388.144855.2921 124.579666.590172.848396.669271.482067.608849.191377.360336.595587.8581110.589152.705691.4499101.350030.156833.975984.27874、了解EXCEL 的假设检验功能EXCEL:工具→数据分析→描述统计5、书上P52页例题用EXCEL 做出轮廓图,雷达图打开EXCEL >>输入数据包括变量名和样品名>>选定数据>>点击菜单栏的插入>>图表>>折线图(轮廓图)>>…同法,可选雷达图等其他多元数据图示6、用MATLAB 做出调和曲线图>> t=-pi:pi/90:pi;>>f1=563.51/2.^(1/2)+227.78*sin(t)+147.76*cos(t)+235.99*sin(2*t)+51 0.78*cos(2*t);>>f2=678.92/2.^(1/2)+365.07*sin(t)+112.82*cos(t)+301.46*sin(2*t)+46 5.88*cos(2*t);>>f3=237.38/2.^(1/2)+174.48*sin(t)+119.78*cos(t)+141.07*sin(2*t)+24 5.57*cos(2*t);>>f4=253.41/2.^(1/2)+156.13*sin(t)+102.96*cos(t)+108.13*sin(2*t)+21 2.20*cos(2*t);>>plot(t,f1,'r-',t,f2,'b-',t,f3,'y-',t,f4,'k-')>>title(‘四个地区人均消费支出’)7、做二元正态分布密度函数立体图>>[x,y]=meshgrid([-2:0.1:2]);>>z=1/2*pi*exp(-0.5*x.^2-0.5*y^2);>>plot3(x,y,z); 或者>>mesh(x,y,z); 或者>>surf(x,y,z)>> title(` (X,Y)~N(0,0,1,1,0)立体图`)>> grid on。