目录:一、画图二、描述统计分析的SPSS应用三、均值比较检验的SPSS应用四、方差分析五、相关分析六、回归分析注:其中使用到的数据和资料可以访问/s/1pJwPBeF进行安全下载!1、散点图1)简单散点图Graphs->Legacy Dialogs->Scatter/Dot->Simple Scatter设置因变量、自变量及其标志(关键字)在散点图上右键单击,然后选择在新的窗口中编辑可绘制曲线2)三维散点图(图1)Graphs->Legacy Dialogs->Scatter/Dot->3-D Scatter3)矩阵散点图(可描述变量间的两两相关关系)(图2)Graphs->Legacy Dialogs->Scatter/Dot->Matrix Scatter由图2可知卷面成绩和最终总成绩有明显的线性关系图 1 图2注:在word文档中同一行插入两张图:把两张图片都插入进去,然后右击图片选择属性,在里面把图文混排改一下——浮于文字上方analysis→descriptive Statistics(描述统计)→explore→ok图3组箱线图:Graphs->Legacy Dialogs->BoxPlot->组箱线图如图4所示:图4将数据转置,可得横轴为课程的组箱线图如图5:图5 3、茎叶图analysis→descriptive Statistics(描述统计)→explore->销售量 Stem-and-Leaf PlotFrequency Stem & Leaf3.00 14 . 1341.00 14 . 95.00 15 . 023344.00 15 . 56898.00 16 . 001123348.00 16 . 5556788813.00 17 . 011222223344414.00 17 . 55556677888999 7.00 18 . 001223413.00 18 . 5667777888999 6.00 19 . 00124411.00 19 . 556666677885.00 20 . 012335.00 20 . 567896.00 21 . 0011342.00 21 . 581.00 22 . 33.00 22 . 5684.00 23 . 33441.00 Extremes (>=237)Stem width: 10Each leaf: 1 case(s)4、条形图图表->旧对话框->条形图注:MATLAB 方法:1)>> x=3:6;>> y=7:10;>> bar(x,y)2) >>x=3:6; >>y=[5.3000 13.0000 0.4000;5.1000 11.8000 -1.7000;3.7000 8.1000 0.6000;1.5000 7.7000 -4.5000]012345678910>>bar(x,y)3456-6-4-224681012145、 直方图MATLAB 作图:语法:hist(y,m) %统计每段的元素个数并画出直方图 hist(y,x)说明:m 是分段的个数,省略时则默认为10;x 是向量,用于指定所分每个数据段的中间值;y 可以是向量或矩阵,如果是矩阵则按列分段。
例:y=randn(10,2) %产生10*2的正态分布的随机数矩阵x=-2:0.5:2;hist(y,x)6、 饼图 (matlab )y=[200 100 250 400];%四个季度支出额explode=[0 0 1 0];pie(y,explode,{'第一季度','第二季度','第三季度','第四季度'}) 第二季第三季度四季度pie3(y,explode,{'第一季度','第二季度','第三季度','第四季度'})第三季度第第一季二、描述统计分析的SPSS 应用1、求均值、方差分析->描述统计->频率->结果为:2、求样本协方差分析->度量(scale)->可靠性分析(reliability analysis) (在“统计量”中的”协方差“前打对勾)3、样本相关系数(两列数) 分析->相关(correlate)->双相关(Bivariate)三、均值比较检验的SPSS应用(一)单一样本均值的检验分析->比较均值(Compare Means)->单样本T检验(One-Sample T Text),输出:结果分析:P值为0.972>α=0.05,故接受原假设,说明15名学生的平均身高与整个年级的平均身高165无显著差异。
(二)独立样本均值的检验分析->比较均值(Compare Means)->独立样本T检验(Independent-Samples T Text),输出结果:组统计量性别N 均值标准差均值的标准误身高 1.00 8 169.8750 3.90741 1.38148.00 7 159.2857 5.55921 2.10118结果分析:假设方差相等时和假设方差不相等时的P值分别为0.001和0.002,都小于显著性水平0.05,故拒绝原假设,说明男生和女生的身高有显著性差异。
(三)配对样本均值的检验分析->比较均值(Compare Means)->配对样本T 检验(Paired-Samples TText),输出结果:结果分析:双尾概率P=0.008<α=0.05,故拒绝原假设,说明期中成绩和期末成绩有显著性差异,期末成绩比期中成绩进步了。
四、方差分析方差分析是通过对实验结果的分析来判断因子是否显著的一种统计方法,它从分析样本的离差平方和入手,鉴别影响事物变化的各种因素的效应是否显著,进而可以找出显著因素的最佳方法。
高度显著:F>F0.01显著:F0.05<F<F0.01一般显著:F0.1<F<F0.05(一)单因子方差分析分析->比较均值->单因素方差分析->输出结果:F0.05<F<F0.01,所以可以判断因子A显著,即竞争者个数对超市的销售额有显著的影响。
(二)多因子方差分析1、无交互作用的多因子方差分析分析->一般线性模型->单变量(Univariate)->输出结果:P=0.144 >α=0.05,地区因子不显著,即不同地区的地区对电脑销售量的影响不显著;同理,品牌因子的概率值P=0.000<α=0.05品牌因子高度显著,即不同品牌对电脑销售量的影响高度显著。
2、有交互作用的多因子方差分析分析->一般线性模型->单变量(Univariate)->输出结果:结果分析:竞争者和地区因子的概率值P均为0.000,这两个因子都高度显著。
而竞争者和地区交互作用的P值为0.017,介于显著性水平0.05和0.01之间,所以交互作用一般显著,即竞争者和地区的交互作用对超市销售额有一般的显著影响。
(三)协方差分析分析->一般线性模型->单变量(Univariate)->输出结果:结果分析:因子饲料种类和协变量初始重量的概率值P都为0.000,可推断这两个因子都高度显著,即饲料种类和初始重量对猪的生长都有高度显著的影响。
五、相关分析用统计方法揭示变量之间是否存在相关关系及如何将相关的密切程度及相关的方向描述出来,就是相关分析。
简单相关分析、复相关分析、偏相关分析都是通过对应的相关系数来描述变量间的相关程度的。
(一)简单相关分析Pearson相关系数:测度两数值变量的相关性Spearman(斯皮尔曼)等级相关系数:测度两顺序变量的相关性(非参数方法)Kendall’s tau-b相关系数:测度两顺序变量的相关性(非参数方法)分析->相关(correlate)->双变量(bivariate)->输出结果:(二)偏相关分析偏相关分析就是在控制对两变量之间的相关性可能产生影响的其他变量的前提下,即在剔除其他变量的干扰后,研究两个变量间的相关性。
偏相关分析假定变量之间的关系均为线性关系,没有线性关系的变量不能进行偏相关分析。
因此在进行偏相关分析之前可以先通过计算皮尔逊相关系数来考察两两变量间的线性关系。
分析->相关(correlate)->偏相关(Partial)->输出结果:偏相关系数小于皮尔逊简单相关系数,可见简单相关系数有夸大的成分,而偏相关系数与实际更加吻合。
(二)距离相关分析(分为不相似性测度和相似性测度)距离相关分析是对样品或变量之间相似或不相似程度的一种度量。
,计算的是一种广义距离。
距离相关分析可以用于度量样品之间的相互接近的程度也可用于度量变量之间的相互接近的程度。
但距离相关分析一般不单独使用,而是作为聚类分析、因子分析等统计方法的预分析过程,探测复杂数据的内在结构,以得到初步的分析线索,为进一步分析做准备。
一般而言,考察变量之间的相关性采用相似性测度,而对于样品间的相关性采用不相似性测度。
分析->相关->距离->度量标准处选择“相似性”,输出结果:啤酒品牌的一行记录是一个样品,“热量、钠含量”等是变量。
由结果可知,本题最好选用不相似性测量。
六、回归分析 (一)线性回归 1、 总平方和(SST )=Lyy反映因变量的 n 个观察值与其均值的总离差 2、 回归平方和(SSR )=β12L xx反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 3、残差平方和(SSE )反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和判定系数(可决系数)r 2:回归平方和占总离差平方和的比例()()()()∑∑∑∑====---=--==nii ni inii ni iy y y y y y y y SSTSSRR 121212122ˆˆ1ˆ判定系数等于相关系数的平方,即R 2=r 2预测:估计值y0,则置信水平为95%的y的的预测区间近似为(y0-2δ,y0+2δ)δ为回归标准差计算公式为:()MSEnSSEnyysniiiy=-=--=∑=22ˆ12(二)逐步回归分析基本思想:将变量一个一个引入,每引入一个变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。