当前位置：文档之家› Z检验和卡方检验

Z检验和卡方检验

4.6 二项分布和Poisson 分布大样本资料的Z 检验1.二项分布总体概率的Z 检验（大样本，n 较大）设 X B n ~(,)π,当n 相当大，以致n π和n ()1-π 都较大（例如，大于5）时，前已学过，X 近似地服从 N n n (,())πππ1-，P 近似地服从 N n(,())πππ1-(1) 单组样本例4.7 传染科人员n =150中,乙肝化验阳性35名，问总体阳性率是否高于当地一般人群的阳性率17%?欲检验 H H 0010:,:ππππ=≠ （或 H 10:ππ> 或 H 10:ππ<） ,05.0=αH 0成立时， Z P nN =--πππ000101()~(,) 若Z 的当前值所对应的P 值很小，则拒绝H 0，否则，不拒绝H 0。

例4.7的解：欲检验%17:%,17:10>=ππH H （单侧） α=005.,Z =--=351500170171017150206..(.).,2.06>1.645,P<0.05，故拒绝H 0 。

可认为传染科人员的总体阳性率高于当地一般人群的阳性率。

（2）两组样本例4.8 常规治疗组：80名中有效者48名常规+心理治疗组：75名中有效者55名问两组有效率是否相等？P X n 111= 近似地服从))1(,(1111n N πππ- P X n 222= 近似地服从))1(,(2222n N πππ- P P 12- 近似地服从N n n (,()())ππππππ1211122211--+-欲检验 H H 012112:,:ππππ=≠ (或 H 112:ππ>) α=005.,H 0成立时会如何？ πππ12==先求π的联合估计 P X X n n 01212=++, 再用P 0代替ππ12,：P P 12- 近似地服从N P P n P P n (,()())011001002-+- Z P P P P n n N =---+12001211101()()~(,)据Z 的当前值查Z 分布表得P 值，若P 值很小，则拒绝H 0；否则，不拒绝H 0。

例4.8的解：欲检验 H H 012112:,:ππππ=≠α=005.,H 0成立时，作联合估计155103758055480=++=P计算Z 的当前值Z =--+=-488055751031551103155180175176()(). 查Z 分布表，得双侧P =008.，不能拒绝H 0。

尚不能认为两组有效率的差异有统计学意义。

2.Poisson 分布总体均数的Z 检验(大样本，λ较大)“λ较大”，例如，20≥λ (1) 单个观察值例4.9 规定：一定时间内放射质点数的总体均数不得超过50.现一次测定结果为X =58，问总体均数是否超过50?欲检验 H H 0010::λλλλ=≠ α=005.,设 X ~()∏λ，大样本时，X 近似地服从N (,,)λλ H 0成立时会如何？X 近似地服从N (,)λλ00 Z X =-λλ0近似地服从N (.)01例4.9的解：欲检验H H 015050::λλ=> (单侧)α=005.,Z X =-=-=5050585050113. 查正态分布表，得单侧 P>0.05, 不能拒绝H 0。

尚不能认为总体均数超过50。

（2）两个观察值 X X 12,例4.10 两样品各测1分钟，X X 12150120==,,问相应的两个总体均数是否相等？欲检验 H H 012112::λλλλ=≠ α=005.,H 0成立时会如何？记λλλ12==X 1 近似地服从N (,,)λλ， X 2近似地服从N (,,)λλX X 12-近似地服从N (,)02λ但λ 未知，只能用X X 122+近似地代替λ)2(20)(2121X X X X Z +--=近似地服从N (,)01 即 2121X X X X Z +-= 近似地服从N (,)01据Z 的当前值查正态分布表，得双侧P 值，若P 值很小，则拒绝H 0；否则，不拒绝H 0例4.10的解：欲检验 H H 012112::λλλλ=≠α=005., Z X X X X =-+=-+=1212150120*********.查正态分布表，得双侧 P>0.05，不能拒绝H 0。

尚不能认为相应的两个总体均数的差异有统计学意义。

(2) 两组观察值例4.11 A 样品：测10分钟，X X 11121500++= ，B 样品：测15分钟，X X 21221800++=问以1分钟为观察单位，A 、B 两样品总体均数是否相等？A 组：独立重复观察n 1个时间单位，记观察值为X X 1112,, ，平均值为 1X设每一个时间单位内，X X 111121~(),~(),,∏∏λλB 组：独立重复观察n 2个时间单位，记观察值为X X 2122,, ，平均值为 2X设每一个时间单位内，X X 212222~(),~(),,∏∏λλ欲检验 H H 012112::λλλλ=≠X X 1112,, 等都近似地服从N (,)λλ11⇒ X 1近似地服从N n (,)λλ111X X 2122,, 等都近似地服从 N (,)λλ22⇒ X 2近似地服从 N n (,)λλ222X X 12- 近似地服从 N n n (,)01122λλ+但λλ12,均未知，用X 1代替λ1，用X 2代替λ2Z X X X n X n =--+121122近似地服从 N (,)01据Z 的当前值查正态分布表得双侧P 值，若P 值很小，则拒绝H 0，否则，不拒绝H 0例4.11的解：欲检验 211210:,:λλλλ≠=H H α=005.,26.6151201015012015012015/1800,15010/150022112121=+-=+-=====n X n X X X Z X X查正态分布表得双侧P 值很小很小，<0.01故拒绝H 0.可以认为AB 两样品总体均数不相等。

第六章离散型分类计数资料的χ2检验6.1 χ2分布和Pearson 拟合优度检验1. χ2分布(1) 自由度为1的χ2分布若Z N ~(,),01则Z 2的分布称为自由度为1的χ2分布.(chi-square distribution),记为χ()12或χ21().E ()()χ121=图形:从纵轴某个点开始单调下降,先凸后凹.02468100.00.10.20.3(2) νZ Z Z ,...,,21互相独立,均服从N (,)01,则22221...νZ Z Z +++的分布称自由度为ν的χ2分布,记为χν()2或)(2νχ,或简记为χ2.E ()()χνν2=* 图形:单峰,正偏峰;自由度ν很大时,χν2()近似地服从正态分布. * 界值:* 自由度ν≤100时,查附表7. * 自由度ν较大时,利用 χνν()()221221≈+-Z 两种做法：（1）给定α,先查正态分布的临界值z α;再代入右端,算出χν()2的临界值χα2。

或（2）给定χν()2的当前值,先算出Z 的当前值;再由标准正态分布表查出P 值。

例:ν==100164005,..z 98.123)19964.1(21)1)100(2(212205.0205.0=+=-+≈z χ若查表,χ005212434..=,相差不远。

* 性质:若χνχν2122(),()互相独立,则 χνχν2122()()+服从χ2分布, 自由度=+νν12χνχν2122()()-服从χ2分布, 自由度=-νν122.关于拟合优度的χ2检验(大样本) 给定一张频数表：问题:试判断这份样本,是否来自该理论分布?χ2检验:(1) H 0:样本的总体与该理论分布无区别H 1 :样本与该理论分布有区别(2)Pearson χ2统计量()kk k k i Pe ef e e f e e f 222221211122)(...)(--++-+-==∑=理论频数理论频数）（实际频数χ可以证明，H 0成立时,χχPi ki i if e e 2122=-=∑()~分布 * 似然比χ2统计量分布理论频数实际频数实际频数222211112~ln ...ln ln 2ln 2χχ⎥⎦⎤⎢⎣⎡+++=⎥⎦⎤⎢⎣⎡=∑=k k k ki Le f f e f f e f f自由度)(1本资料估计的参数个数计算理论分布时利用样--=k ν(3) 将观察值代入得当前值和相应的P 值. 若P 值很小,则拒绝H 0;否则,不拒绝H 0. “大样本”:,...,21e e 等都不小于5.6.2 两二项分布总体概率的比较表6.1 反应变量按二项分类的两个独立样本资料(四格表类型之一)某事件观察总频数阳性频率阳性阴性表6.2 肺心病患者心律失常观察资料洋地黄用药史某事件观察总频数阳性频率阳性阴性合计 100 115 21546.51解法一:检验 211210::ππππ≠=H H5175.1)5111641)(2151001(215100511916481)11)(1(210021=+--=+--=n n P P P P Z其中，2151005116419810=++=P据当前值1.5175查标准正态分布表，P = 0.065 ,不能拒绝H 0 。

解法二: (1)检验 211210::ππππ≠=H H(2) H 0成立时, πππ12==, 用P n n01=+近似地代替π,理论上应有:e n n n n 11111=≈+++π e n n n n 121121=-≈+++()πe n n n n 21221=≈+++π e n n n n222221=-≈+++()π一般地, 理论频数行和列和总和=()()(3) 统计量的当前值* Pearson χ2统计量()χPf e e f e e f e e f e e 211112111212212212122122222222222817628762883877287721923722372322728272823028=-+-+-+-=-+-+-+-=()()()(.).(.).(.),(.)..上述关于四格表统计量χP 2的计算公式等价于:χPf f f f nn n n n 21122122121212=-++++()本例中,χP 22813283192151645110011523028=⨯-⨯⨯⨯⨯⨯=().* 似然比χ2统计量χLf f e f f e f f e f f e 2111111121212212121222222228181762883838772191923723232272823277=+++⎡⎣⎢⎤⎦⎥=++⎡⎣⎢⎤⎦⎥=ln ln ln ln ln .ln .ln .ln ..由上可见, χχP L 22≈ 实践中,可任用其中之一.(4) 自由度计算理论频数时,利用了行和、列和,两个行和中, 只有一个是独立的,两个列和中也只有一个是独立的, 故利用样本资料来估计的参数个数 = 2自由度 = 4 - 1 - 2 = 1 另一种算法 :自由度 = ( 行数 - 1 )( 列数 - 1 ) 对于例6.1, 自由度 = ( 2 - 1 )( 2 - 1 ) = 1 (5)决策:* 据χ2统计量的当前值,查附表7,得P 值,若P 值很小,则拒绝H 0,否则,不拒绝H 0 .或 * 给定α,查附表7,得临界值χα2,若χ2统计量的当前值≥χα2,则拒绝H 0,否则,不拒绝H 0 .本例中, χP 2当前值为2.3028,,查附表7,得自由度 = 1时, 010025..<<P ,故不拒绝H 0. 或给定α=005.,查附表7,得自由度 = 1时,临界值χα2384=.,22αχχ<P ,故不拒绝H 0.讨论: 关于统计量χP 2:● 解法一和解法二Pearson χ2检验完全等价● χχP P Z Z 2222302815175===.,., ● 统计量χP 2的连续性校正:当n >40(认为是大样本),若有15≤<e ij , 必须作连续性校正:χPf e e f e e f e e f e e 2111121112122122121221222222205050505=--+--+--+--(.)(.)(.)(.)或21212211222112)5.0(++++--=n n n n nn f f f f Pχ 它们等价于二项分布正态近似中的连续性校正: 若P P 12>22210021)11)(1()5.0()5.0(Z n n P P P P Z P=+---+=χ6.3 2×2交叉分类资料的χ2检验2×2列联表: 将样本中个体按照两个二分类属性作交叉分类形成的双向表.表6.3 2×2交叉分类资料表( 四格表类型之二)按属性A分类按属性B分类合计1 2合计(给定)+1+21.两种属性分布间独立性检验(或关联性检验)例6.2 260份血清样品,每份用两种免疫学方法检测风湿因子A法B法合计+ -合计184 76 260设计: 一份样本;给定n=260;行和与列和事先是不定的; 按两种属性交叉分类.问题:两种免疫测定结果是否有关联?(1) 检验的假设H 0: 属性A 和B 互相独立 , H 1: 属性A 和B 互相关联表6.4 2×2交叉分类资料的概率表按属性A 分类按属性B 分类合计1 2合计 +1+2 1(2) H 0成立时必有.ππππππππππππ1111121221212222====++++++++用样本资料估计ππππ1212++++,,,,ππππ11221122++++++++≈≈≈≈n nn nn nn n理论频数:e n n n n n n n n n n 1111111111==≈=++++++πππ()()e n n n n n n n n n n 1212121212==≈=++++++πππ()()e n n n n n n n n n n 2121212121==≈=++++++πππ()()e n n n n n n n n n n 2222222222==≈=++++++πππ()()一般地, 理论频数行和列和总和=()()(3) 统计量的当前值 — 同前 (4) 自由度 — 同前(5)决策 — 同前两种属性分布间独立性检验与两二项分布总体概率的比较虽资料分析的计算方法相同,但设计和解释不同(1) 检验的假设H 0: 方法A 和B 互相独立 ,H 1: 方法A 和B 互相关联 (2) H 0成立时必有e n n n 111118418026012738==⨯=++.e n n n 1212761802605262==⨯=++.e n n n 2121184802605662==⨯=++.e n n n 222276802602338==⨯=++.(3) 统计量的当前值利用(6.8a)或(6.7a),χP 217374=. (4) 自由度 = (2-1)(2-1) = 1 (5)决策据χP 217374=.查附表7, 自由度 =1时,P <0.05( 更确切P<0.001) 故拒绝H 0,或给定05.0=α,查附表7, 自由度 =1时, 84.32=αχ,χχαP 22>, P <0.05，故拒绝H 0.（更确切χα21083=.，P<0.001）结论:可认为两种方法测定结果间有关联.定义: 关联系数 = ±χ2n(取值在 -1与+1之间)其中,符号由关联的方向决定,与 f f f f 11221221-的符号相同上例中, f f f f 11221221172681280-=⨯-⨯>,故关联系数 = 17374260082..2.两份非独立样本总体概率相等的检验( McNemer检验)常用于配对设计,数据结构同上.问题不同.例6.2 260份血清样品,每份用两种免疫学方法检测风湿因子A法B法合计+ -合计184 76 260设计: 一份样本;问:两种测定方法的阳性率是否相等?解:这里不是问是否关联,故不能用上面的办法分析!这里有两份样本,接受方法A 的个体与接受方法B 的个体有关联,故不能用前一节的办法分析!方法A 样本阳性率 =n n f f n 11112+=+方法B 样本阳性率 =n n f f n +=+11121样本阳性率之差 = f nf n1221- 取决于四格表副对角线上两个格子中的观察值f 12和f 21. 问题: f 12和f 21的差异是否是偶然的?(1) 检验的假设在两种方法结论不一致的条件下,个体出现在这两个格子里的概率为π1和π2 H H 012112050:.:ππππ==≠ (2) H 0成立时应当如何?若共有f f 1221+个体(大样本)结论不一致, 则应当有理论频数e ef f 122112212==+且 χχP f e e f e e 2121221221212212=-+-()()~分布左边=-+++-++=-+()()()f f f f f f f f f f f f f f 121221************12211221212212222故H 0成立时应当有χχPf f f f 21221212212=-+()~分布 (3) 统计量的当前值 — 同前 (4) 自由度 = 2 - 1 (5) 决策 — 同前以上解决问题的思路:在两方法测定结果已经不一致的条件下考虑问题.这类统计方法称”条件”方法.另有”非条件”方法来处理这类问题,比较复杂,超出了本课程的范围.* 连续性校正— 同前,当f f 122140+<时,由χPf e e f e e 2121221221212210505=--+--(.)(.)可得 ()χχPff f f 212212122121=--+~分布例6.3的解：问两种方法的阳性率是否相等? ()χP228121812045=--+=.查附表7,自由度为1时,P 值≈050.>0.05,不拒绝H 0. 可以认为，这两种测定方法的总体阳性率的差别无统计学意义。

e商务文档

Z检验和卡方检验

相关文档推荐：