一、二项分布的背景以及概率计算的简单介绍。
例:用淋菌培养方法,检查患者是否患有淋病。
该检查方法没有假阳性,只有假阴性。
对于淋病患者,若用该方法检查一次的检出率为0.8,问:1)重复检查3次,检查结果均为阴性的概率是多少?P=(1-0.8)3=0.0082)重复检查3次,检查结果中最少是阳性的概率是多少?P=1-(1-0.8)3=0.9924) 检查4个患者,每人检查一次,第一个患者和第二个患者为阳性且其他均为阴性的概率是多少?P=0.820.22=0.02565) 检查4个患者,每人检查一次,其中二个患者为阳性且其他均为阴性的概率是多少?其中2C为4个患者中有2个阳性的各种不同情况总数。
4在医学上,经常需要研究或观察这样一类现象:其结果只有两种可能:如:抢救急性心肌梗塞患者,其结果可分为:抢救成功或失败如:检查幽门螺杆菌(HP):+或-。
上述类似研究中,我们把观察或治疗一个研究对象统称为一次试验(在上例中,把检查一个患者是否阳性视为一次试验)。
如果研究背景满足下列条件:1)每次试验的可能结果(Outcome)仅为两种(视为成功或失败,在上例中阳性或阴性)。
2)定义试验中其中一个可能的结果成功,另一种可能的结果为失败(在上例中把检查结果为阳性可视为成功,检查结果为阴性为失败)。
3)每次试验的条件相同。
每次试验成功的概率为π,失败的概率为π-1(在上例中把检出阳性的概率为π=0.8,检查阴性的概率为π-1=0.2)。
3)试验次数为n(上例中n=4)。
则在n 次试验中,有X 次成功的概率(在上例中,4个患者检查,即:n=4;有x 个患者为阳性的)为X n X X n Xx n)1()!x n (!x !n )1(C )x (P --π-π-=π-π=。
n ,,2,1,0x =。
并记为X ~B(n,π)例:英语测试时,每道题有4个答案选择,随机选择答案,每道题正确的概率为0.25,问(1)做8道题,正好有2道题正确的概率是多少?(2)做20道题,正好有5道题正确的概率是多少? 解:(1)n=8,π=0.25,311462.075.025.0278)2X (P 62=⨯== (2)n=20,π=0.25,202331.075.025.0543211617181920)5X (P 155=⨯⨯⨯⨯⨯⨯⨯⨯== 二、二项分布的图形。
(见P190)三、服从二项分布的变量X 的均数和标准差。
变量X 所对应的总体均数为n π,总体的标准差为)1(n π-π。
四、平均发生率P 的均数和标准差。
对于统计研究中,往往需要了解发生率π。
由于π往往是未知的,通常计算平均发生率nXp =估计总体发生率π,平均发生率对应的总体均数为πμ=p 以及标准误为n)1(p π-πσ=。
对应的样本标准误为n)p 1(p S p -=。
例:某医院治疗了50个HP +的患者,35个患者转阴,请计算样本转阴率和样本标准误(把治疗一个HP +患者视为一次试验,治疗50个患者,视为50次试验,把患者通过治疗后转阴的结果视为试验成功)。
解:转阴率7.05035P ==, 转阴率的标准误0648.050)7.01(7.0S p =-=。
五、大样本时,二项分布的总体发生率π的95%可信区间计算。
性质:设X 服从二项分布B(n,π),n π>5以及n(1-π)>5,当n 充分大时,则π≈P 且P 近似服从正态分布,因此p s n)P 1(P n )1(=-≈π-π=σπ则π的95%可信区间(95%CI)为p 1.96S P ± 即: π的95%CI 为)1.96S P ,1.96S (P P P +-例:调查了1000名男性,检查出10名男性是色盲的,试求色盲患病率的95%可信区间。
解:色盲样本患病率01.0100010P ==,n=1000。
因此nP 与n(1-P)均大于5以及n 也充分大,003146.01000)01.01(01.0=-⨯=P S ,所以95%CI 为:(0.01-196×0.003146,0.01+1.96×0.003146)=(0.003834,0.016166)。
六、样本量较小时,计算比较复杂,因此建议查本书附表7(百分率的可信区间)例:治疗25个HP +患者,12个患者转阴,求转阴率的95%可信区间:解:n=25,X =12,查附表7,95%CI=(0.28,0.69)例:某医院抢救20个AMI 患者,14个抢救成功,求抢救成功率的95%CI 。
解:由于X 仅列出n/2的可信区间,不能直接查表求95%CI 。
本例n=20,6个抢救未成功,故可查未成功率1-π的95%CI 为: 0.12<1-π<0.54,因此-0.12>π-1>-0.54,所以0.88=1-0.12>π>1-0.54=0.46,即:95%CI 为(0.46,0.88)。
七、二项分布的正态近似问题。
大样本时 样本发生率XP n=近似服从正态分布(5>πn 且5)1(>π-n ,且n>40)。
X Z π-==近似服从标准正态分布N(0,1) 其中样本发生率nXP =。
例:用传统的治疗方案治疗HP +患者的治愈率为0.8。
某研究用一种新的治疗方案治疗了100个HP +患者,治愈了90个,问:用新的治疗方案的治愈率是否高于传统的治疗方案? 解:用新的治疗方案的样本治愈率9.010090==P H 0:新的治疗方案的总体治愈率8.0=π vs H 1:8.0≠π5808.0100>=⨯=πn 且5202.0100)1(>=⨯=π-n 且n=100>40,故可用正态分布进行近似。
5.204.01.01002.08.08.09.01002.08.08.0==⨯-=⨯-=P U ,对于05.0=α,U 0.025=1.96U> U 0.025,差别有统计意义,P<0.05。
结论:新的治疗方案的治愈率高于传统治疗方案的治愈率,差别有统计意义,P<0.05。
八、小样本时,样本率P 与总体率π的比较。
直接计算:例:根据以往经验,一般的溃疡病患者的人群HP +的患病率为30%。
某医院在某社区随机检查了10名25岁以下的溃疡病患者,有1个溃疡病患者的HP +。
问:该地溃疡病患者的HP +率是否为30%?解:n=10,用X 表示10个中有HP +的患者个数。
则X 服从二项分布。
若π0=0.30为真,则X 的总体均数n π0=10×0.3=3。
H 0:π=0.3 vs H 1:π≠0.3。
样本值X 0=1,若H 0:π=0.30 为真,则对应的概率为121061.0)7.0(3.0)1(9110===C X P 若X =1属于小概率事件,概率小于0.121061的事件均属于小概率事件,并属于拒绝域。
因此P 值=所有那些概率1)P(X =≤的事件的概率之和。
由下列计算可知:那些概率1)P(X =≤的事件有X=0,10,9,8,7,6,5;反之那些概率1)P(X =>的事件有X=2,3,4。
因此P 值=P 0+P 1+P 10+P 9+P 8+P 7+P 6+P 5=0.028248+0.121061+0.00000595+0.000138+0.001447+0.009002+0.036757+0.102919=0.299578也可以这样计算:P 值=1-(那些概率1)P(X =>的事件的概率) =1-(P 2+P 3+P 4)=1-0.233474-0.266827-0.200121=0.299578 九、两个样本率比较的U 检验问题。
当n 1p 1>5、n 1(1-p 1)>5、n 2p 2>5且n 2(1-p 2)>5,n 1和n 2较大时,可以应用U 检验。
)n 1n 1)(p 1(p p p u 21c c 21+--=其中p c 为合并阳性率,即:2121c n n X X p ++=若n 1p 1>5、n 1(1-p 1)>5、n 2p 2>5且n 2(1-p 2)>5,但n 1和n 2不是足够大时,用校正公式:)n 1n 1)(p 1(p 2/)n /1n /1(|p p |u 21c c 2121+-+--=例:现有二种治疗方案治疗高血脂症:用A 方案治疗120个高血脂患者,其中30个患者治疗有效;用B 方案治疗110个高血脂患者,其中45个患者治疗有效。
问这两种治疗方案何种更好? 解:H 0:π1=π2 vs H 1:π1≠π225.04030p ,120n 11===,409.011045p ,110n 22===,326.01101204530p c =++= 因为n 1p 1>5、n 1(1-p 1)>5、n 2p 2>5且n 2(1-p 2)>5,且n 1和n 2也较大,故用u 检验:57.211011201674.0326.0|409.025.0|u =⎪⎭⎫ ⎝⎛+⨯-=,查附表2:t 检验表(v=∞),U 0.05=1.96,p<0.05故可以认为B 方案的治疗有效率显著地高于A 方案的治疗有效率。
十、Poisson 分布的背景及其简单计算。
在医学上研究中,经常需要研究某一事件在一定的时间内发生的次数。
如:24小时内发生早搏的次数;如:哮喘病患者在一年中发病的次数。
在医院管理中,要考虑前来门诊的患者个数(把有一个患者前来门诊视为一个事件发生)。
又如:无菌的水放在露天10分钟,细菌落到水里的个数等一些个体计数资料。
这些现象可以用Poisson 分布的变量进行描述。
变量X 表示某一个事件在固定的一段时间内随机发生的次数。
如果X 的总体平均发生次数为λ,则该事件发生k 次的概率为:λ-λ==e !k )k X (P k ,x=0,1,2,3…。
例:某市平均交通事故3起/天。
问:一天内发生2起或2起以下的交通事故的概率是多少?解:总体均数λ=3,因此一天内发生2起或2起以下的交通事故的概率为4232.0e !23e3e)2X (P )1X (P )0X (P )2X (P 3233=++==+=+==≤--- 十一、Poisson 分布的图形(见p199)十二、Poisson 分布的总体均数和方差。
可以证明:Poisson 分布的总体均数为λ=总体方差.十三、Poisson 分布的可加性(再生性)。
如果变量X 服从总体均数为λ1的Poisson 分布,变量Y 服从总体均数为λ2的Poisson 分布,且X 与Y 独立,则X +Y 服从总体均数为λ1+λ2的Poisson 分布 十四、二项分布与Poisson 分布的关系:当二项分布资料中n 较大时,而且发生的次数非常稀少时(发生率π很小),二项分布的概率计算可以用Poisson 分布公式近似。