第四章 非参数统计实验参数统计学中的许多统计分析方法的应用对总体都有严格的假定,例如,t 检验要求总体服从正态分布,F 检验要求误差呈正态分布且各组方差为齐性的等等,然而在现实生活中,有许多总体的分布我们却是一无所知或知之甚少,所以在参数模型中所建立的统计推断就会失效,于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。
这就是非参数统计的宗旨。
非参数统计方法简便,适用性强,但检验效率较低,应用时应加以考虑。
实验一 卡方检验(Chi-square test )实验目的:掌握卡方检验方法。
实验内容:一、2χ拟合优度检验 二、2χ独立性检验 三、2χ齐性检验 实验工具:SPSS 非参数统计分析菜单项和Crosstabs 菜单项。
知识准备:一、卡方拟合优度检验2χ检验(Chi —Square Test) 适用于拟合优度检验,适用于定类变量的检验问题,用来检验实际观察数目与理论期望数目是否有显著差异。
当检验问题是实际分布是否与理论分布相符合时,在大样本时也可以用分类数据的卡方检验来解决,这时的卡方检验也称为分布拟合的卡方检验。
若样本分为k 类,每类实际观察频数为k f f f ,,,21 ,与其相对应的期望频数为ke e e ,,,21 ,则检验统计量2χ可以测度观察频数与期望频数之间的差异。
其计算公式为:∑∑-=-==期望频数期望频数实际频数2122)()(ki ii i e e f χ很显然,实际频数与望频数越接近,2χ值就越小,若2χ=0,则上式中分子的每—项都必须是0,这意味着k 类中每一类观察频数与期望频数完全一样,即完全拟合。
2χ统计量可以用来测度实际观察频数与期望频数之间的拟合程度。
在H 0成立的条件下,样本容量n 充分大时,2χ统计量近似地服从自由度df =k-1的2χ分布,因而,可以根据给定的显著性水平α,在临界值表中查到相应的临界值)1(2-k αχ。
若)1(22-≥k αχχ,则拒绝H 0,否则不能拒绝H 0。
所有的统计软件都可以输出检验统计量的显著性p 值,也可以根据显著性p 值和显著性水平α作比较,若α≤p ,则拒绝H 0,否则不能拒绝H 0。
另外卡方拟合优度检验也可以用来检验某总体是否服从某一特定分布的假设。
拟合优度检验中几种常用分布的参数如表4-1:表4-1 拟合优度检验中几种分布的参数二、2χ独立性检验假设有n 个随机试验的结果按照两个变量A 和B 分类,A 取值为A 1,A 2,…,A r ,B 取值为B 1,B 2,…,B s ,则形成了一张s r ⨯的列联表,称为s r ⨯二维列联表。
其中ij n 表示A 取A i 及B 取B j 的频数,n n r1i s1j ij =∑∑==,其中:r ,...,2,1i ,nn s1j iji.==∑=表示各行的频数之和s ,...,2,1i ,nn r1i ij.j ==∑=表示各列的频数之和令)B B ,A A (P p j i ij ===(s ,...,2,1j ;r ,...,2,1i ==),.i p 和j .p 分别表示各行和各列的边缘概率,对于s r ⨯二维列联表,如果变量A 和变量B 是独立的,则A 和B 的联合概率应该等于A 和B 边缘概率的乘积。
因而有如下检验:j ..i ij 0p p p :H =在H 0成立的条件下,s r ⨯二维列联表中的期望频数为:nn n e j..i ij =则∑∑==-=r1i s1j ij2ij ij 2e )e n (χ如果期望频数5e ij >,则2χ统计量近似服从自由度为)1s )(1r (--的卡方分布。
如果Pearson 2χ值过大,或p 值过小,则拒绝H 0,认为变量A 和变量B 存在某种关联,即不是独立的;否则不能拒绝H 0,认为是独立的。
如果期望5e ij <,则需要将其合并使得期望频数5e ij >,否则容易夸大卡方统计量值,导致拒绝原假设的结论。
三、 2χ齐性检验与2χ独立性检验类似的是2χ齐性检验。
实际问题中,假设有n 组从不同来源得到的数据,要判定这些数据的来源是否相同(相同的分布),统计上我们可以将这些问题表述为:假定有k 组样本,分别取自k 个总体,要检验这k 个总体的分布是否相同。
这样的假设检验问题称为“齐次性检验”。
对一般的s r ⨯二维列联表,可以提出假设:isi2i10p ...p p :H ===(r ,...,2,1i =)在H 0成立的条件下,这些概率ij p 与j 无关,因此ij n 的期望值(理论频数)为ij j .p n ,nn p .i .i =,因此期望值nn n p n e j..i .i j .ij =⨯=,则2χ检验统计量为:∑∑==-=r1i s1j ij2ij ij 2e )e n (χ与2χ独立性检验一样,如果5e ij >,则2χ统计量近似服从自由度为)1s )(1r (--的卡方分布。
如果Pearson 2χ值过大,或p 值过小,则拒绝H 0,;否则不能拒绝H 0。
实验背景:一、据以往经验,机床发生故障的频数服从均匀分布,某车间在一周内统计所有机床发生故障频数的资料如下:表4-2 故障频数检验故障频数是否服从均匀分布(05.0=α)?二、在丧偶问题上的性别因素和地区因素是否独立按照1996年一个抽样,我国华北五省市区的丧偶人数按性别分为:表4-3 1996年华北地区丧偶情况统计检验在丧偶数量上性别因素和地区因素是否独立。
三、在一个有三个主要百货商场的商贸中心,调查者问479个不同年龄段的人首先去三个商场中的哪个,结果如下表:表4-4 调查结果检验人们去这三个商场的概率是否一样。
(数据来源:《非参数统计》,王星,中国人民大学出版社,P161)实验过程:一、用Chi-Square过程进行2 拟合优度检验激活数据管理窗口,定义变量名:每天为day,故障次数为count。
按顺序输入数据,结果见图4.1。
图4.1点击Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图4.2),选Weight cases by,再选count点击钮使之进入Frequency Variable框,定义count变量为权数,再点击OK钮即可。
图4.2选择Analyze/ Nonparametric Tests/Chi-Square,打开卡方检验对话框,如图4.3所示:图4.3图4.3左侧为候选变量框,在候选变量框中选择一个或多个变量,单击向右箭头按钮使其进入右侧的Test V ariable List框中。
(1)Test V ariable List框:用于选入需要进行检验的变量,可以选入一个或多个,如果选入多个,系统会对其依次进行分析。
本例中选中变量count,使之进入Test V ariable List框。
(2)Expected Range单选框:设定需检验的变量的取值范围,在此范围之外的取值将不进入分析。
Get from data选项:数据文件的最大值和最小值所确定的范围,系统默认该项。
Use specified range选项:自行制定检验的取值范围,在Lower和Upper 框中键入检验范围的下限和上限。
本例采用系统默认项。
(3)Expected V alues单选框:指定已知总体的各分类构成比。
All categories equal选项:系统默认项,各类别构成比例相等,即意味着检验的总体是服从均匀分布的。
本例中使用此选项。
V alues选项:自行定义给类别构成比例,每输入一个值后按Add按钮,于是在它右边的框中便增加了刚键入的数值。
要求输入数值必须大于0,一直到输完为止,如果在输入过程出现了错误,并已按Add按钮使录入的值进入了右下框中,则可用鼠标来进行修改,即用鼠标将光标移到错误处,但一鼠标左上键使错误值置于光带中,若是刚录入的值,则可以点击Remove按钮将其删除,然后重新录入;如果错误值在录入值中间,则先将它置于光带中,然后在Add右边的观众键入修改的值后按Change按钮进行替换。
(4)Exact子对话框:用于设定是否进行确切概率的计算,以及具体的计算方法。
如图4.4Asymptotic only:渐近分布的显著性检验,只近似计算概率,不计算确切概率,适合于渐近性分布和较大样本,系统默认选项。
Monte Carlo:采用蒙特卡罗模拟方法计算确切概率,适合于数据满足渐近性分布,而且数据过大以至不能计算精确显著性。
Confidence:指定置信度,默认为99%。
Number of sample:指定计算的样本数目,样本数越大显著性水平越可靠,默认为10000。
Exact:准确计算观测结果的统计概率Time limit per test:限定进行每个检验所使用的最长时间,如果超过30分钟,则用Monte Carlo法比较合适,默认计算时间限制在5分钟内,超过此时限则自动停止。
图4.4(5)Option子对话框:选择输出结果形式及缺失值处理方式。
如图4.5图4.5Statistics复选框:选择可供输出的统计量。
Descriptive:输出常用的描述统计量,包括变量的均值、标准差、最大值、最小值等等。
Quartiles:输出变量的四分位数。
Missing V alues单选框:选择缺失值的处理方式。
Exclude cases test-by-test:分析用到的变量有缺失值时去除该记录。
系统默认该项,以便充分利用数据。
本例中选择默认项,不做修改。
Exclude cases listwise:只要相关变量有缺失值,则在所有分析中均去除该记录。
在本例中,点击Data菜单选Weight Cases...命令项,弹出Weight Cases对话框(如图4.2),选Weight cases by,再选count点击钮使之进入Frequency Variable 框,定义count变量为权数,再点击OK钮即可。
选择Analyze/ Nonparametric Tests/Chi-Square,打开Chi-Square检验对话框,选择变量count进入Test V ariable List框,其他选择不做任何修改,在主对话框点击ok按钮,提交运行命令,得到结果如图4.6、图4.7:图4.6图4.6中,最上方Npar Tests表示进行的是非参数统计检验,Chi-Square Test 表示进行的是卡方检验,Frequency为表格名称,表示输出的是频数表,count 是检验变量名,表格内显示的是6个类别的观测频数、期望频数和残差。
在本例中,观测频数合计为60,期望频数各类别相等,均为10。