吉林财经大学《SPSS统计软件分析》作业(2010——2011学年第一学期)学院信息学院专业班级电子商务0806班学生姓名王瑞霞学号14030806161、对未分组资料频数分析从中国统计局中获得从11月21日至30日国内50个城市主要食品平均价格变动情况,以该数据为例为例,进行频数分析。
首先输入数据:选择Analyze中Descriptive Statistics——Frequencies,打开Frequencies对话框;将需处理的变量键入变量框中单击Statistics…按钮统计量子对话框12指标,选中所需要计算的指标:单击Charts …按钮,选择需绘制的统计图:单击OK按钮开始运行,运行结果为:从上图中可以看出数据中缺失值为0,花生油的平均价格104.84是最高的,而巴氏牛奶的平均价格1.81最低,全部食品平均价格的平均数为16.5327,标准差为22.4668,各种食品的平均价格差距较大。
条形图、饼形图以及直方图是用不同的图形表示方法来说明数据的指标,其实质是一样的,从图中可以看出平均价格在0—22元之间的食品是最多的,20—40元之间的食品数次之,接下来是40—60元之间的食品,不存在平均价格在60—100之间的食品。
2、以食品平均价格为依据对数据进行分组并对分组后的数据进行频数分析:Transform —Recode—Into same V ariables ,将要分组的变量放入Numeric 栏中,单击Old and new V alues分组:分组结果如下图所示:回到数据编辑窗,定义变量的V alue labels :再对食品平均价格进行频数分析,分析结果如下截图所示Statistics价格a Calculated from grouped data.b The lower bound of the first interval or the upper bound of the last interval is not known. Some percentiles are undefined.c Percentiles are calculated from grouped data.由表中可以看出数据中缺失值为0,最大值为3,最小值为1,总体均值为1.2308,标准差为0.58704.价格Frequency Percent Valid Percent Cumulative PercentValid 1-25 22 84.6 84.6 84.626-50 2 7.7 7.7 92.351- 2 7.7 7.7 100.0Total 26 100.0 100.0此图代表的含义是,原始数据中值在1到25之间的部分所占的个数为22个,所占的有效百分比为84.6%。
后两行所代表意思同上,总体样本值为26。
上图为进行分组后的食品平均价格的直方分布图和正态分布曲线,由图可以看出分组后的数据食品平均价格在0.5至1.5之间的频率是最大的,而平均价格在1.5-2.5和2.5-3.5之间的频率是一样的。
3、将原始数据的价格按2操作中的分组标准找到每组的组中值及每组的次数,按次数进行加权后再进行频数分析。
应用数据菜单下的加权个案:将次数作为权数后进行频数分析,结果如下图:18.53461,方差为343.532,最小值为12.5,最大值为77.92.为对上述几行的汇总。
由上图可以看出总体均值为19.4938,标准差为18.5346,组中值在10到这20之间的频数最多,30-40间的频数和70-80间的频数相同,都为2,20-30之间和40-70之间没有要分析的组中值。
4、Descriptives分析由截图可以看出,对食品的平均价格进行Descriptives分析,可以看出总共的样本个数共26个,平均价格最大值为104.84,最小值为1.81,所有样本平均价格的总和为429.85。
5、Explore探索性数据分析数据如图:以性别为分组变量对总成绩进行分析,输出结果摘要图如下:失值为0.由图中可以看出是将原始数据分为男生和女生两组来分别进行分析的,结果中分别计算出了男生成绩和女生成绩的相关指标,男生总体平均成绩为84.286,女生总体平均成绩为83.219,相差不大;男生总体标准差为5.4657,女生总体标准差为5.5916,等其他的描述指标。
系统还进行数据的茎叶图形描述:箱形图描述:运行data—sort Cases排序后:7、“Compute Variable”命令,根据已存在的变量建立新变量,增加一列,表示每位同学总成绩与上学期成绩相比的提升或降低的幅度:变量提升或降低幅度如果为负数,表示该同学今年的成绩与上学期相比降低了,数值表示降低了百分之几,如果是正数则表示该同学的成绩与上学期相比是提高的,数值相应表示提高了百分之几。
8、处理考试成绩的缺失值原数据:利用转换下的处理缺失值进行处理,采用该列的平均值进行替换。
替换后结果图:9、进行文件的合并准备工作,建立一张只包含学号、性别、年龄、平时成绩、考试成绩、总成绩和上学期成绩的文件。
原数据图:要合并文件的数据:再利用数据下的合并文件中的添加个案进行文件合并处理,合并后的数据图:10、个案或变量转置(移位)转置结果:11、对年龄进行数据的拆分后再对总成绩进行数据分析。
拆分后数据图:进行数据分析,结果如下:由图可以看出频数分析是以以年龄拆分后的数据进行的。
12、根据性别的不同对考试成绩进行分类汇总(分类汇总选择平均数函数)。
利用数据栏下的分类汇总,汇总后结果如图:13、均值分析,Means过程,描述比较各组均值从图可以看出全部30人参加了考试,没有人缺考。
由结果表可以看出是以年龄作为分组变量对总成绩的均值、方差、标准差、中位数各项指标的计算。
年龄为14的同学只有一个人,均值为79.5,年龄为18的也只有一个同学,均值为88;年龄为19岁的同学有两人,均值为84,标准差为3.5355,方差为12.5,以下几行分析同上。
方差分析表如图:表方差分析表,共有六列,第一列说明方差的来源,Between Groups是组间的,Within Groups 组内的,Total 总的。
第二列为平方和,其大小说明了各方差来源作用的大小。
第三列为自由度。
第四列为均方,即平方和除以自由度。
第五列F值是F统计量的值,其计算公式为模型均方除以误差均方,用来检验模型的显著性。
第六列是F统计量的显著值。
14、One-Sample T Test 单样本T检验某生产食盐的生产线,其生产的袋装食盐的标准重量为500g,现随机抽取10袋,其重量分别为:495,502,508,496,505,499,503,498,505,500。
检验生产线的工作情况,数据如图:结果图:食盐重量的平均值为501.1,标准差为4.22821上表是单样本T检验结果表,第一行的Test V alue为检验参数值500,即用于比较的总体均值,下面从左至右依次为检验统计量(t)、自由度(df)、双尾检测概率P值(Sig.(2-tailed))、样本均值与和检验值的差(Mean Difference)、均值差的95%置信区间(95%Confidence Interval of the Difference)。
以95%的置信区间估计男性平均寿命平均值的置信区间(-1.9247,4.1247)。
当置信水平为95%时,显著性水平为0.05,从表中可以看出,双尾检测概率P值为0.432,大于0.05,故抽样袋装食盐的重量与500克无显著性差异,有理由相信生产线工作状态正常。
15、独立样本的T检验为比较两种不同品种的玉米的产量,分别统计了8个地区的单位面积产量,两组样本相互独立,试比较在置信度为95%的情况下,两种玉米产量是否有显著性差异,建立数据文件:检验结果图:得出两个独立样本各自的均值,标准差以及平均标准误差.品种a的平均产量显然大于品种b的平均产量。
表2:可以看出两个时间段男性平均寿命之差的95%的置信区间为:若两个样本方差相等则为(2.76237,6.39527);若两个样本方差不等则为(2.74588,6.41176)在方差相等的情况下,两独立样本T检验的结果应该看表中的“Equal variances assumed”一行,第5列为相应的双尾检测概率(Sig.(2-tailed))为0.332,在显著性水平为0.05的情况下,T统计量的概率p值大于0.05,故认为两样本的均值是相等的,不能认为两种玉米品种的产量有显著性差异。
若两个样本方差相等则置信区间为(-6.24398,17.24398);若两个样本方差不等则为(-6.27297,17.27297)16、Paired-Samples T Test分析:以下是某大学跆拳道选手15人的平衡训练的数据,统计实验前、后平衡训练成绩是否有差异。
训练前:86,77,59,79,90,68,85,94,66,72,75,72,69,85,88训练后:78,81,76,92,88,76,93,87,62,84,87,95,88,87,80检验结果图:从表中可以看出两配对样本T检验的基本描述统计量的各项数值,训练前的均值为77.6667,总样本数为15,标准差为10.10422,训练后的均值为83.6,样本数也是15,标准差为8.43293.此处进行配对变量间的相关性分析。
等价于Analyze=>Correlate=>Birvariate 上表是两配对样本T检验的简单相关关系及其检验结果。
表中第3列为训练前和训练两样本的相关系数,第4列是相关系数的检验p值。
从表中可以看出,在显著性水平为0.05时,训练前后的概率p值为0.132,大于0.05,可以认为训练前后的成绩没有明显的线性关系。
上表内容翻译为差值均值为-5.93333标准差为10.18729标准误差为2.63035,可信区间下限-11.57487上限为-0.29180, t值为-2.256,自由度为14,p值为0.041。
显示了前后两个总体平均训练成绩的95%置信区间为(-11.57487,-0.29180),。