10.11统计分析软件&SPSS建立数据目录10.11统计分析软件&SPSS建立数据 (1)10.25数据加工作图 (1)11. 08绘图解答&描述性分析: (3)2.描述性统计分析: (4)四格表卡方检验:(检验某个连续变量的分布是否与某种理论分布一致,如是否符合正态分布) (7)第七章非参数检验 (10)1.单样本的非参数检验 (11)(1)卡方检验 (11)(2)二项分布检验 (13)2.两独立样本的非参数检验 (14)3.多独立样本的非参数检验 (16)4.两相关样本的非参数检验 (16)5.多相关样本的非参数检验 (18)第五章均值检验与T检验 (21)1.Means过程(均值检验)( (21)4. 单样本T检验 (22)5. 两独立样本T检验 (23)6.两配对样本T检验 (24)第六章方差分析 (26)单因素方差分析: (26)多因素方差分析: (30)10.25数据加工作图1.Excel中随机取值:=randbetween(55,99)2.SPSS中新建数据,一列40个,正态分布随机数:先在40那里随便输入一个数表示选择40个可用的,然后按一下操作步骤:3.排序:个案排秩4.数据选取:数据-选择个案-如果条件满足:计算新变量:5.频次分析:分析-统计描述-频率还原:个案-全部6.加权:还原7.画图:11. 08绘图解答&描述性分析:1.课后题:长条图2.描述性统计分析:(1)频数分析:(2)描述性分析:描述性统计分析没有图形功能,也不能生成频数表,但描述性分析可以将原始数据转换成标准化得分,并以变量形式存入数据文件中,以便后续分析时应用。
操作:分析—描述性分析:然后对结果进行筛选,去掉异常值,就得到标准化的数据:任何形态的数据经过Z标准化处理之后就会是正态分布的<—错误!标准化是等比例缩放的,不会改变数据的原始分布状态,(3)探索分析:(检验是否是正态分布:茎叶图、箱图)实例:操作:(4)交叉列联表(探索定类型的变量间的相关性):【纯数值的变量用回归分析,名义变量用交叉分析】操作:实例:四格表卡方检验:(检验某个连续变量的分布是否与某种理论分布一致,如是否符合正态分布)例子:第1步建立数据文建:第2步:对数据进行预处理;(给数据加权)第3步进行卡方检验:第4步结果分析P=0.011<0.05,则在5%显著性水平下拒绝原假设,差异有显著性意义,即药物加化疗与单用药物治疗癌症的疗效有显著性差异。
如何选sig值:期望值就是T 是理论频数N是样本数量(合计)对应:1)选第一个:2)选3)选配对卡方检验:第1步建立数据文建:第2步对数据进行加权处理第3步进行配对卡方检验结果分析:第七章非参数检验使用情况:在总体分布未知的情况下用非参数检验,分布已知用参数检验。
1.单样本的非参数检验 (1)卡方检验分析步骤➢ 第1 步 提出零假设:卡方检验的零假设H0是“总体服从某种理论分布”,其对立假设H1是“总体不服从某种理论分布”。
➢ 第2步 选择检验统计量:卡方分布选择的是Pearson 卡方统计量。
已证明,当n 充分大时,它近似地服从自由度为k -1的卡方分布。
➢ 第3步 计算检验统计量的观测值和概率p 值。
➢ 第4步 给出显著性水平,作出决策。
实例:某公司质检负责人欲了解企业一年内出现的次品数是否均匀分布在一周的五个工作日中,随机抽取了90件次品的原始记录,其结果如下表,问该企业一周内出现的次品数是否均匀分布在一周的五个工作日中?( )第1步 分析:由于考虑的是次品是否服从均匀分布的问题,考虑用卡方检验。
0.05α=第2步数据的组织:数据分成两列,一列是工作日,其变量名为“weekday”,另一列是次品数,变量名为“number”,输入数据并保存。
第3步加权设置:将变量“number”定义为权变量。
第4步进行卡方检验:➢第5步主要结果及分析左表是频数分布情况表,第二列为实际观察值出现次数,第三列为理论上每天应出现的次数,第四列为残差右表是计算的卡方统计量及对应的相伴概率值,由于Sig.=0.014<0.05。
说明应拒绝每个工作日出现的次品率相等的原假设。
即次品数出现是不均匀的。
(2)二项分布检验【例7-2】某地某一时期内出生35名婴儿,其中女性19名(定Sex=0),男性16名(定Sex=1)。
问这个地方出生婴儿的性别比例与通常的男女性比例(总体概率约为0.5)是否不同?第1步分析:由于性别分为男与女两种状态,故应用二项分布检验。
第2步数据的组织:数据分成两列,其变量名为“性别”,“频数”。
输入数据并保存。
进行加权处理。
第3步进行二项分布检验:第4步主要结果及分析从上表可知,相伴概率Sig.=0.736>0.05,因此没有理由拒绝零假设。
这说明此地新生儿男女比例与通常的男女比例相同。
2.两独立样本的非参数检验【例7-3】某公司希望了解两种品牌汽油A和B每加仑的行驶里程是否有区别,表7.15是两种品牌汽油每加仑的行驶里程数,在显著性水平=0.05下,判断两个品牌间是否存在显著性差异?A 30.4 28.7 29.2 32.5 31.7 29.5 30.8 31.1 30.7 31.8B 33.5 29.8 30.1 31.4 33.8 30.9 31.3 29.6 32.8 33第1步分析:由于是两种品牌的汽油,可以认为是两个独立样本,但行驶里程数根本不知道服从何种分布,可用两独立样本的非参数检验进行分析。
第2步数据组织:由于独立样本的非参数检验所检验的数据只有一列,故应将A,B数据组织成一列,用另一列来区分A和B,作分组变量。
第3步进行独立样本的非参数检验双尾检验的相伴概率为0.151,大于0.05,说明两种汽油无显著性差异。
两个相伴概率都大于显著性水平0.05,因此应接受零假设,认为两种汽油之间无显著性差异。
Kolmogorov-Smirnov Z值为0.894,相伴概率值为0.400,大于显著性水平0.05,因此应接受两种汽油之间无显著性差异的原假设;根据游程检验计算的Z统计量为-1.149,对应在单尾显著性概率为0.128,大于显著性水平,因此应接受两种汽油之间无显著性差异的原假设。
从以上四种检验方法所得到的结果是相同的,即两种汽油之间无显著性差异。
3.多独立样本的非参数检验4.两相关样本的非参数检验某企业提出了一项新工艺,为了检验新工艺是否能降低单位成本,随机抽取16个工人分别用新旧工艺生产产品,测得单位成本资料如下表,请在显著性水平0.05下检验是否新工艺降低了成本?第1步分析:由于是同一批工人和同一批机器,其先后的成本是相关的,同时也不知数据的分布情况,故应用两相关样本的非参数检验。
第2步数据组织:数据分成两列,第一列为新工艺的成本,第二列为旧工艺的成本。
第3步两相关样本的非参数检验:设置如下图Z统计量为-2.160,相伴概率为0.031,小于显著水平0.05,故应拒绝原假设,即认为两样本不是来自于同一总体,说明有差异,新工艺可省成本。
结果分析:Z统计量为-2.160,相伴概率为0.031,小于显著水平0.05,故应拒绝原假设,即认为两样本不是来自于同一总体,说明有差异,新工艺可省成本。
其相伴概率为0.021,小于0.05,说明新工艺与旧工艺有显著性差异,这与Wilxocon检验结果是一致的。
5.多相关样本的非参数检验某文艺晚会有5个节目,共有5个评委参与打分,其数据如下表。
问这5个评委的判断标准是否一致。
节目1 节目2 节目3 节目4 节目5评委1 8.75 8.25 8.8 9 8.5评委2 10 9.5 9.5 8.9 9.5评委3 9.6 9.1 9.1 8.5 9.6评委4 9.2 8.5 8.9 9.1 9.4评委5 9.65 9.2 9.1 9.1 8.9第1步分析:由于5个评委打分是分别针对同一个节目,所以数据之间具有相关性,同时不知道数据所服从的分布,可以采用多相关样本的非参数检验。
第2步数据组织:由于是分析的评委之间的评判标准是否一致,故应将每个评委所打的分各分成一列。
第3步多相关样本的非参数检验:结果分析:卡方值为9.102,自由度为4,相伴概率为0.059>0.05,故应认为5个评委打分是一致的。
卡方值为9.102,自由度为4,相伴概率为0.059>0.05,也应认为5个评委的打分具有一致性,这与Friedman检验具有一致性。
非参数检验与卡方检验比较:卡方检验是数据总体是服从什么样的分布(都是频次的方式呈现出来的)非参数检验是总体分布情况未知第五章均值检验与T检验参数检验必须说明,他是服从某种分布的实例:1.Means过程(均值检验)(与非参检验比较)非参检验中的二项式检验,但是只能是两个变量。
第1步数据组织;根据表5.1生成SPSS数据文件,建3个变量:“sex”、“edu”、“num”,数据文件的部分数据如图5-3所示。
3、实例分析第2步打开主对话框;选择分析→比较均值→均值,打开同图5-1一样的均值过程主对话框。
第3步确定要进行均值比较的变量;在图5-1的对话框中,从左边的候选变量列表框中选择“人口数量(num)”变量,移入“因变量列表”文本框中,表示对该变量进行均值比较分析。
第4步确定分组变量;分组变量可以有几层,选择“性别(sex)”变量作为第一层分组变量,将其移入“自变量列表”文本框中。
第5步确定输出的统计量;单击图5-1上的选项…按钮,弹出如图所示的子对话框,选择方差和eta复选框,进行方差分析,单击继续按钮,返回主对话框。
结果分析:此表是性别的单因素方差分析。
表中的Sig.值远大于0.05,说明不同性别受教育的人口数量没有显著性差异。
人口数量与性别的相关性度量表。
此时的Eta和Eta方取值都很小,说明性别和受教育的人口数量的相关性很差,这也和单因素方差分析表的结论是一致的。
4. 单样本T检验(它是对总体均值的假设检验)【例5-2】某生产食盐的生产线,其生产的袋装食盐的标准重量为500g,现随机抽取10袋,其重量分别为:495,502,508,496,505,499,503,498,505,500。
假设数据总体呈正态分布,请检验生产线的工作情况。
第1步数据组织;首先建立SPSS数据文件,只需建立一个变量“Weight”,录入相应的数据即可。
第2步打开主对话框;选择分析→比较均值→单样本T检验,打开同图5-3一样的单样本T检验主对话框。
第3步确定要进行T检验的变量;在图5-3所示的对话框中,选择“Weight”变量作为检验变量,移入“检验变量”框中。
第4步输入要检验的值;在图5-4的对话框中的“检验值”中输入要检验的值,本例应输入500。