当前位置:文档之家› Z检验和卡方检验

Z检验和卡方检验

4.6 二项分布和Poisson 分布大样本资料的Z 检验1.二项分布总体概率的Z 检验(大样本,n 较大)设 X B n ~(,)π,当n 相当大,以致n π和n ()1-π 都较大(例如,大于5)时,前已学过,X 近似地服从 N n n (,())πππ1-,P 近似地服从 N n(,())πππ1-(1) 单组样本例4.7 传染科人员n =150中,乙肝化验阳性35名, 问总体阳性率是否高于当地一般人群的阳性率17%?欲检验 H H 0010:,:ππππ=≠ (或 H 10:ππ> 或 H 10:ππ<) ,05.0=αH 0成立时, Z P nN =--πππ000101()~(,) 若Z 的当前值所对应的P 值很小,则拒绝H 0, 否则,不拒绝H 0。

例4.7的解:欲检验%17:%,17:10>=ππH H (单侧) α=005.,Z =--=351500170171017150206..(.).,2.06>1.645,P<0.05,故拒绝H 0 。

可认为传染科人员的总体阳性率高于当地一般人群的阳性率。

(2) 两组样本例4.8 常规治疗组:80名中有效者48名常规+心理治疗组:75名中有效者55名 问两组有效率是否相等?P X n 111= 近似地服从))1(,(1111n N πππ- P X n 222= 近似地服从))1(,(2222n N πππ- P P 12- 近似地服从N n n (,()())ππππππ1211122211--+-欲检验 H H 012112:,:ππππ=≠ (或 H 112:ππ>) α=005.,H 0成立时会如何? πππ12==先求π的联合估计 P X X n n 01212=++, 再用P 0代替ππ12,:P P 12- 近似地服从N P P n P P n (,()())011001002-+- Z P P P P n n N =---+12001211101()()~(,)据Z 的当前值查Z 分布表得P 值,若P 值很小,则拒绝H 0;否则,不拒绝H 0。

例4.8的解:欲检验 H H 012112:,:ππππ=≠α=005.,H 0成立时,作联合估计155103758055480=++=P计算Z 的当前值Z =--+=-488055751031551103155180175176()(). 查Z 分布表,得双侧P =008.,不能拒绝H 0。

尚不能认为两组有效率的差异有统计学意义。

2.Poisson 分布总体均数的Z 检验(大样本,λ较大)“λ较大”,例如,20≥λ (1) 单个观察值例4.9 规定:一定时间内放射质点数的总体均数不 得超过50.现一次测定结果为X =58,问总体均数是否 超过50?欲检验 H H 0010::λλλλ=≠ α=005.,设 X ~()∏λ,大样本时,X 近似地服从N (,,)λλ H 0成立时会如何?X 近似地服从N (,)λλ00 Z X =-λλ0近似地服从N (.)01例4.9的解:欲检验H H 015050::λλ=> (单侧)α=005.,Z X =-=-=5050585050113. 查正态分布表,得单侧 P>0.05, 不能拒绝H 0。

尚不能认为总体均数超过50。

(2) 两个观察值 X X 12,例4.10 两样品各测1分钟,X X 12150120==,,问相应的两个总体均数是否相等?欲检验 H H 012112::λλλλ=≠ α=005.,H 0成立时会如何?记λλλ12==X 1 近似地服从N (,,)λλ, X 2近似地服从N (,,)λλX X 12-近似地服从N (,)02λ但λ 未知,只能用X X 122+近似地代替λ)2(20)(2121X X X X Z +--=近似地服从N (,)01 即 2121X X X X Z +-= 近似地服从N (,)01据Z 的当前值查正态分布表,得双侧P 值, 若P 值很小,则拒绝H 0;否则,不拒绝H 0例4.10的解:欲检验 H H 012112::λλλλ=≠α=005., Z X X X X =-+=-+=1212150120*********.查正态分布表,得双侧 P>0.05,不能拒绝H 0。

尚不能认为相应的两个总体均数的差异有统计学意义。

(2) 两组观察值例4.11 A 样品:测10分钟,X X 11121500++= ,B 样品:测15分钟,X X 21221800++=问以1分钟为观察单位,A 、B 两样品总体均数是否相等?A 组:独立重复观察n 1个时间单位,记观察值为X X 1112,, ,平均值为 1X设每一个时间单位内,X X 111121~(),~(),,∏∏λλB 组:独立重复观察n 2个时间单位,记观察值为X X 2122,, ,平均值为 2X设每一个时间单位内,X X 212222~(),~(),,∏∏λλ欲检验 H H 012112::λλλλ=≠X X 1112,, 等都近似地服从N (,)λλ11⇒ X 1近似地服从N n (,)λλ111X X 2122,, 等都近似地服从 N (,)λλ22⇒ X 2近似地服从 N n (,)λλ222X X 12- 近似地服从 N n n (,)01122λλ+但λλ12,均未知,用X 1代替λ1,用X 2代替λ2Z X X X n X n =--+121122近似地服从 N (,)01据Z 的当前值查正态分布表得双侧P 值, 若P 值很小,则拒绝H 0, 否则,不拒绝H 0例4.11的解:欲检验 211210:,:λλλλ≠=H H α=005.,26.6151201015012015012015/1800,15010/150022112121=+-=+-=====n X n X X X Z X X查正态分布表得双侧P 值很小很小,<0.01故拒绝H 0.可以认为AB 两样品总体均数不相等。

第六章 离散型分类计数资料的χ2检验6.1 χ2分布和Pearson 拟合优度检验1. χ2分布(1) 自由度为1的χ2分布若Z N ~(,),01则Z 2的分布称为自由度为1的χ2分布.(chi-square distribution),记为χ()12或χ21().E ()()χ121=图形:从纵轴某个点开始单调下降,先凸后凹.02468100.00.10.20.3(2) νZ Z Z ,...,,21互相独立,均服从N (,)01,则22221...νZ Z Z +++的分布称自由度为ν的χ2分布,记为χν()2或)(2νχ,或简记为χ2.E ()()χνν2=* 图形:单峰,正偏峰;自由度ν很大时,χν2()近似地服从正态分布. * 界值:* 自由度ν≤100时,查附表7. * 自由度ν较大时,利用 χνν()()221221≈+-Z 两种做法:(1)给定α,先查正态分布的临界值z α;再代入右端,算出χν()2的临界值χα2。

或(2)给定χν()2的当前值,先算出Z 的当前值;再由标准正态分布表查出P 值。

例:ν==100164005,..z 98.123)19964.1(21)1)100(2(212205.0205.0=+=-+≈z χ若查表,χ005212434..=,相差不远。

* 性质:若χνχν2122(),()互相独立,则 χνχν2122()()+服从χ2分布, 自由度=+νν12χνχν2122()()-服从χ2分布, 自由度=-νν122.关于拟合优度的χ2检验(大样本) 给定一张频数表:问题:试判断这份样本,是否来自该理论分布?χ2检验:(1) H 0:样本的总体与该理论分布无区别H 1 :样本与该理论分布有区别(2)Pearson χ2统计量()kk k k i Pe ef e e f e e f 222221211122)(...)(--++-+-==∑=理论频数理论频数)(实际频数χ可以证明,H 0成立时,χχPi ki i if e e 2122=-=∑()~分布 * 似然比χ2统计量分布理论频数实际频数实际频数222211112~ln ...ln ln 2ln 2χχ⎥⎦⎤⎢⎣⎡+++=⎥⎦⎤⎢⎣⎡=∑=k k k ki Le f f e f f e f f自由度)(1本资料估计的参数个数计算理论分布时利用样--=k ν(3) 将观察值代入得当前值和相应的P 值. 若P 值很小,则拒绝H 0;否则,不拒绝H 0. “大样本”:,...,21e e 等都不小于5.6.2 两二项分布总体概率的比较表6.1 反应变量按二项分类的两个独立样本资料(四格表类型之一)某事件 观察 总频数阳性频率 阳性 阴性表6.2 肺心病患者心律失常观察资料 洋地黄 用药史 某事件 观察 总频数 阳性 频率 阳性 阴性合计 100 115 21546.51解法一:检验 211210::ππππ≠=H H5175.1)5111641)(2151001(215100511916481)11)(1(210021=+--=+--=n n P P P P Z其中,2151005116419810=++=P据当前值1.5175查标准正态分布表,P = 0.065 ,不能拒绝H 0 。

解法二: (1)检验 211210::ππππ≠=H H(2) H 0成立时, πππ12==, 用P n n01=+近似地代替π,理论上应有:e n n n n 11111=≈+++π e n n n n 121121=-≈+++()πe n n n n 21221=≈+++π e n n n n222221=-≈+++()π一般地, 理论频数行和列和总和=()()(3) 统计量的当前值* Pearson χ2统计量()χPf e e f e e f e e f e e 211112111212212212122122222222222817628762883877287721923722372322728272823028=-+-+-+-=-+-+-+-=()()()(.).(.).(.),(.)..上述关于四格表统计量χP 2的计算公式等价于:χPf f f f nn n n n 21122122121212=-++++()本例中,χP 22813283192151645110011523028=⨯-⨯⨯⨯⨯⨯=().* 似然比χ2统计量χLf f e f f e f f e f f e 2111111121212212121222222228181762883838772191923723232272823277=+++⎡⎣⎢⎤⎦⎥=++⎡⎣⎢⎤⎦⎥=ln ln ln ln ln .ln .ln .ln ..由上可见, χχP L 22≈ 实践中,可任用其中之一.(4) 自由度计算理论频数时,利用了行和、列和,两个行和中, 只有一个是独立的,两个列和中也只有一个是独立的, 故 利用样本资料来估计的参数个数 = 2自由度 = 4 - 1 - 2 = 1 另一种算法 :自由度 = ( 行数 - 1 )( 列数 - 1 ) 对于例6.1, 自由度 = ( 2 - 1 )( 2 - 1 ) = 1 (5)决策:* 据χ2统计量的当前值,查附表7,得P 值,若P 值很小,则拒绝H 0,否则,不拒绝H 0 .或 * 给定α,查附表7,得临界值χα2,若χ2统计量的 当前值≥χα2,则拒绝H 0,否则,不拒绝H 0 .本例中, χP 2当前值为2.3028,,查附表7,得 自由度 = 1时, 010025..<<P ,故不拒绝H 0. 或 给定α=005.,查附表7,得自由度 = 1时,临界值χα2384=.,22αχχ<P ,故不拒绝H 0.讨论: 关于统计量χP 2:● 解法一和解法二Pearson χ2检验完全等价● χχP P Z Z 2222302815175===.,., ● 统计量χP 2的连续性校正:当n >40(认为是大样本),若有15≤<e ij , 必须作连续性校正:χPf e e f e e f e e f e e 2111121112122122121221222222205050505=--+--+--+--(.)(.)(.)(.)或21212211222112)5.0(++++--=n n n n nn f f f f Pχ 它们等价于二项分布正态近似中的连续性校正: 若P P 12>22210021)11)(1()5.0()5.0(Z n n P P P P Z P=+---+=χ6.3 2×2交叉分类资料的χ2检验2×2列联表: 将样本中个体按照两个二分类属性作 交叉分类形成的双向表.表6.3 2×2交叉分类资料表( 四格表类型之二)按属性A分类按属性B分类合计1 2合计(给定)+1+21.两种属性分布间独立性检验(或关联性检验)例6.2 260份血清样品,每份用两种免疫学方法检测风湿因子A法B法合计+ -合计184 76 260设计: 一份样本;给定n=260;行和与列和事先是不定的; 按两种属性交叉分类.问题:两种免疫测定结果是否有关联?(1) 检验的假设H 0: 属性A 和B 互相独立 , H 1: 属性A 和B 互相关联表6.4 2×2交叉分类资料的概率表 按属性A 分类 按属性B 分类 合计1 2合计 +1+2 1(2) H 0成立时必有.ππππππππππππ1111121221212222====++++++++用样本资料估计ππππ1212++++,,,,ππππ11221122++++++++≈≈≈≈n nn nn nn n理论频数:e n n n n n n n n n n 1111111111==≈=++++++πππ()()e n n n n n n n n n n 1212121212==≈=++++++πππ()()e n n n n n n n n n n 2121212121==≈=++++++πππ()()e n n n n n n n n n n 2222222222==≈=++++++πππ()()一般地, 理论频数行和列和总和=()()(3) 统计量的当前值 — 同前 (4) 自由度 — 同前(5)决策 — 同前两种属性分布间独立性检验与两二项分布总体概率 的比较虽资料分析的计算方法相同,但设计和解释不同(1) 检验的假设H 0: 方法A 和B 互相独立 ,H 1: 方法A 和B 互相关联 (2) H 0成立时必有e n n n 111118418026012738==⨯=++.e n n n 1212761802605262==⨯=++.e n n n 2121184802605662==⨯=++.e n n n 222276802602338==⨯=++.(3) 统计量的当前值利用(6.8a)或(6.7a),χP 217374=. (4) 自由度 = (2-1)(2-1) = 1 (5)决策据χP 217374=.查附表7, 自由度 =1时,P <0.05( 更确切P<0.001) 故拒绝H 0,或给定05.0=α,查附表7, 自由度 =1时, 84.32=αχ,χχαP 22>, P <0.05,故拒绝H 0.(更确切χα21083=.,P<0.001) 结论:可认为两种方法测定结果间有关联.定义: 关联系数 = ±χ2n(取值在 -1与+1之间)其中,符号由关联的方向决定,与 f f f f 11221221-的符号相同上例中, f f f f 11221221172681280-=⨯-⨯>,故关联系数 = 17374260082..2.两份非独立样本总体概率相等的检验( McNemer检验)常用于配对设计,数据结构同上.问题不同.例6.2 260份血清样品,每份用两种免疫学方法检测风湿因子A法B法合计+ -合计184 76 260设计: 一份样本;问:两种测定方法的阳性率是否相等?解:这里不是问是否关联,故不能用上面的办法分析!这里有两份样本,接受方法A 的个体与接受方法B 的个体有关联,故不能用前一节的办法分析!方法A 样本阳性率 =n n f f n 11112+=+方法B 样本阳性率 =n n f f n +=+11121样本阳性率之差 = f nf n1221- 取决于四格表副对角线上两个格子中的观察值f 12和f 21. 问题: f 12和f 21的差异是否是偶然的?(1) 检验的假设在两种方法结论不一致的条件下,个体出现在这两个 格子里的概率为π1和π2 H H 012112050:.:ππππ==≠ (2) H 0成立时应当如何?若共有f f 1221+个体(大样本)结论不一致, 则应当有理论频数e ef f 122112212==+且 χχP f e e f e e 2121221221212212=-+-()()~分布左边=-+++-++=-+()()()f f f f f f f f f f f f f f 121221************12211221212212222故H 0成立时应当有χχPf f f f 21221212212=-+()~分布 (3) 统计量的当前值 — 同前 (4) 自由度 = 2 - 1 (5) 决策 — 同前以上解决问题的思路:在两方法测定结果已经不一致的条件下考虑问题.这类统计方法称”条件”方法.另有”非条件”方法来处理 这类问题,比较复杂,超出了本课程的范围.* 连续性校正— 同前,当f f 122140+<时,由χPf e e f e e 2121221221212210505=--+--(.)(.)可得 ()χχPff f f 212212122121=--+~分布例6.3的解:问两种方法的阳性率是否相等? ()χP228121812045=--+=.查附表7,自由度为1时,P 值≈050.>0.05,不拒绝H 0. 可以认为,这两种测定方法的总体阳性率的差别无统计学意义。

相关主题