§5.非参数检验参数检验:估计或检验总体参数统计分析方法对总体有特殊要求,如t检验要求总体符合正态分布,F 检验要求误差呈正态分布且各组方差齐等,这些方法称为参数检验。
非参数检验:数据的总体分布未知或无法确定,统计分析不是针对总体参数,而是针对总体的某些一般性假设(如总体分布)的检验方法。
5.1.1 主要功能适用于有明显分类特征的某些数据,主要用于检验属于某一类的对象或实际观测数与根据某理论假设所期望的频数间是否有显著差异。
5.1.2 实例操作例5-1某地一周内各日死亡数的分布如下表,请检验一周内各日的死亡危险性是否相同?星期一二三四五六日死亡数11 19 17 15 13 16 195.1.2.1 数据准备在数据编辑器窗口,定义变量名:各日为Day,死亡数为Death。
按顺序输入数据,结果见死亡危险性.sav。
1.Data菜单→Weight Cases...命令项→弹出Weight Cases对话框;2.核选weight cases by,选Death并点击【➢】钮使之进入Frequency框,定义死亡数为权数;3.再点击OK钮即可。
13.1.2.2 统计分析步骤1.Statistics菜单→Nonparametric Tests…→Chi-Square...命令项→弹出Chi-Square Test对话框。
2.从变量名列表框中选变量(Day)并【➢】移入到Test variable框中,则对其对应的数据进行检验。
其他选项的意义:Expected Range栏: 确定对变量中的那些数据进行检验。
◎Get from data: 全部数据参与检验(默认)。
◎Use specified range: 确定自定义的下限和上限。
Expected Values:◎All categories equal: 假设变量中各组数据的期望值相等(默认)。
检验服从均匀分布时选此项。
◎Values: 窗口中输入数值→Add,移入到右侧框中,重复可以输入多个数值,它们将被作为需要检验分布的期望值。
Exact钮→弹出Exact Test对话框:◎Asymptotic only: 缺省,根据假设的分布采用渐进逼近方法计算显著性。
◎Monte Carlo: 设置置信度和最大迭代次数。
◎Exact: 设置计算时间限制。
>30mins时,建议用Monte Carlo法。
Option钮→弹出Chi-Square Test: Options对话框: 设置描述统计量和缺失值处理方法。
3.点击OK钮即可。
注:卡方检验要求所有单元中的期望值≥1,并且有20%以上的单元中的期望值≥5。
5.1.2.3 结果解释在结果输出窗口中将看到如下统计数据:运算结果显示一周内各日死亡的理论数(Expected)为15.71,即一周内各日死亡均数;还算出实际死亡数与理论死亡数的差值(Residual);卡方值χ2 = 3.4000,自由度df= 6 ,P = 0.7572 ,可认为一周内各日的死亡危险性是相同的。
DAYObserved N Expected N Residual1 11 15.7 -4.72 19 15.7 3.3…………7 19 15.7 3.3Total 110Test StatisticsDAYChi-Square 3.400df 6Asymp. Sig. .757a 0 cells (.0%) have expected frequencies less than 5.The minimum expected cell frequency is 15.7.例5-2掷骰子120次,记录各点数出现的频数于下表,以检验骰子各点出现的频数是否服从均匀分布?数据记录于文件掷骰子.sav。
(先要给频数加权,检验点数)点数 1 2 3 4 5 6频数15 15 20 21 23 265.2 Binomial检验5.2.1 主要功能从只能划分为两类的数据总体中抽取的所有可能结果,要么是对立分类中的一类(比例为P),要么是另一类(比例为1-P),则二项检验可检验能否认为从样本观察到的两类比例来自具有指定P值的总体。
5.2.2 实例操作例5-3某地某一时期内出生40名婴儿,其中女性12名,男性28名。
问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?5.2.2.1 数据准备在数据编辑器窗口,定义变量和变量标签。
按出生顺序输入数据,婴儿性比.sav。
5.2.2.2 统计分析1.Statistics菜单→Nonparametric Tests...→Binomial...命令项→弹出Binomial Test对话框;2.Test Variable框:将变量名列表框中的待分析变量(婴儿),【➢】移入到该框;3.Define Dichotomy框:确定数据获取方式。
◎Get from data: 从原数据文件获取分类数据;◎Cut point: 输入一个数值,将以该值为界将原数据分为2组(依变量标签值确定,如0.5,1或1.5等)。
4.在Test框:键入数值(缺省为0.5)作为二项中属于第一项的概率,其他同前;5.点击OK钮即可。
Binomial TestCategory N Observed Prop. Test Prop. Asymp. Sig. (2-tailed) Baby Group 1 0=男孩28 .70 .50 .018Group 2 1=女孩12 .30Total 40 1.00a Based on Z Approximation.5.2.2.3 结果解释在结果输出窗口中将看到如下统计数据:二项分布检验表明,女婴12名,男婴28名,观察概率为0.7000(即男婴占70%),检验概率为0.5000,二项分布检验的结果是双侧概率为0.0177,可认为男女比例的差异有高度显著性,即与通常0.5的性比例相比,该地男婴比女婴明显为多。
5.3 Runs检验5.3.1 主要功能SPSS应用游程总个数检验方法,检验一组数据是否来自同一总体或差异不明显,服从同一分布。
既考察按随机顺序得到的一组样本的观测值是否表现出足够的随机性。
5.3.2 实例操作例5-4某村发生一种地方病,其住户沿一条河排列,调查时对发病的住户标记为“1”,对非发病的住户标记为“0”,共26户:0 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1问病户的分布排列是呈聚集趋势,还是随机分布?13.3.2.1 数据准备激活数据管理窗口,定义住户变量为地方病。
按住户顺序输入数据,发病的住户为1,非发病的住户为0。
地方病.sav13.3.2.2 统计分析1.Statistics菜单→Nonparametric Tests→Runs Test...项→弹出Runs Test对话框。
2.将变量名列表框中endemic【➢】移入Test Variable框。
在临界割点Cut Point框中有四个选项:□Median:用数据中位数作断点(缺省);□Mode:用众数作临界割点;□Mean:用均数作临界割点;□Custom:用指定值作临界割点;本例选Custom项,在其方框中键入1(本例是0、1二分变量,故临界割点值用1)。
3.其他按照卡方检验设置,点击OK。
5.3.2.3 结果解释在结果输出窗口中将看到如下统计数据:检验结果可见本例游程个数为14,检验临界割点值(Test value)= 1.00,小于1.00者有17个案例,而大于或等于1.00者有9个案例。
Z = 0.3246,双侧P = 0.7455。
所以认为此地方病的病户沿河分布的情况无聚集性,而是呈随机分布。
Runs TestendemicTest Value 1Total Cases 26Number of Runs 14Z .325Asymp. Sig. (2-tailed) .746a User-specified.5.4 1-Sample K-S检验5.4.1 主要功能对单样本进行Kolmogorov-Smirnov Z检验,它将一个变量的实际频数分布与正态分布(Normal)、均匀分布(Uniform)、泊松分布(Poisson)进行比较。
5.4.2 实例操作例5-5某地成年男子144人红细胞计数(万/立方毫米)的频数资料如下,问该资料是否呈正态分布?红细胞计数人数红细胞计数人数420- 440- …520- 24…25540-560-…640-2422…15.4.2.1 数据准备在数据编辑器窗口,定义频数变量名为频数,依次输入人数资料,红细胞频数.sav。
5.4.2.2 统计分析1.Statistics菜单→Nonparametric Tests→1-Sample K-S ...项→弹出One-Sample Kolmogorov-Smirnov Test框。
2.在变量名列表框中选f,点击【➢】使之移入Test Variable框;3.在Test Distribution框中有4个选项(Normal, Uniform, Poisson, Exponential),表明与这些分布形式相比较,再点击OK钮即可。
5.4.2.3 结果解释在结果输出窗口中将看到如下统计数据:K-S正态性检验的结果显示,Z值=0.718,双侧P值=0.681,可认为该地正常成年男子的红细胞计数符合正态分布。
One-Sample Kolmogorov-Smirnov Test频数N 12Normal ParametersMean 12.08 Std. Deviation 9.32Most Extreme Differences Absolute .207 Positive .207 Negative -.163Kolmogorov-Smirnov Z .718b Calculated from data.例5-6在一大批相同型号的电子元件中随机抽取10只作使用寿命(h)试验,测得结果如下:420 500 920 1380 1510 1650 1760 2100 2320 2350。
试问该电子元件的使用寿命是否服从均值为1500h的指数分布?元件寿命.savOne-Sample Kolmogorov-Smirnov Test使用寿命N 10Exponential parameter. Mean 1491.0000Most Extreme Differences Absolute .304 Positive .207 Negative -.304Kolmogorov-Smirnov Z .960Asymp. Sig. (2-tailed) .315a Test Distribution is Exponential.b Calculated from data.注:缺省时系统将样本数据的均值作为指数分布的均值,如表中所示,P值大于0.05故接受零假设,即服从均值为1491的指数分布。