第四章抽样误差与区间估计
(中大.公卫学院.医学统计与流行病学系.骆福添.020-********)
第一节均数的抽样误差
·统计推断:用样本的信息去推断总体特征的方法称为统计推断(statistical inference)。
·抽样误差(sampling error):样本指标与总体指标(参数)的差别要点:由个体变异引起的、不可避免的、有规律性的
·抽样实验:表4-1,图4-1
表4-1 从总体N(4.83, 0.522)中抽出100个样本(n=10)的
X、S、t值与 的95%的可信区间tCI
tCI
·抽样实验结果提示:
(1)样本均数X 以μ为中心呈正态分布
(2)离样本均数X 的散程度为
·
标准误(standard error):度量抽样误差大小的指标(统计量),
其实质是样本指标的变异程度,(联系抽样实验:样本均数的标准差称为样本均数的标准误)
可推导出计算公式为:
此公式几乎不实用,不妨称之为理论标准误
用样本S 代替σ,得样本标准误为: ·标准误意义:
(1)标准误小表示样本均数可靠性越大
(2)样本均数结合标准误,对总体作统计推断(后述)
例4-1随机抽取某地200名成年男性的红细胞数均数为4.95×
1012/L ,标准差为0.57×1012/L ,估计其抽样误差。
040.020057
.0===n S S X (1012/L)
所以该样本的抽样误差为0.04×1012/L 。
样本均数 图4-1 100个样本均数的直方图
第二节 均数的抽样误差的分布-t 分布
·标准化变换:()X X σμ
-
·标准化值的分布:
(1)已知总体标准差σ时,()X X u σ
μ
-=,服从标准正态分布 (2)未知总体标准差σ时,)X S X t μ-=,服从t 分布
(3)大样本时,()X S X u μ-≈,近似服从标准正态分布
·t 分布:
ν为自由度(degree of freedom),每个自由度都对应一条分布曲线
·t 分布的特征:
①以0为中心,左右对称的单峰分布;(外观:…)
②t 分布曲线是一簇曲线,其形态变化与自由度ν的大小有关。
自由度ν越小,则t 值越分散,曲线越低平;自由度ν逐渐增大时,t 分布逐渐逼近u 分布(标准正态分布);(参数:+ν)
③当ν趋于∞时,t 分布即为u 分布。
(面积:尾巴较大、界值较大) ·t 分布界值表(Page406)
双侧t 0.10(30) = 单侧t 0.05(30) = 1.679
第三节 总体均数的可信区间估计 ·点估计:估计总体参数在某一点上,如μ
ˆ=X ·区间估计·可信度/置信度/把握度:区间估计时,估计正确的概率
约定α=错误概率,则可信度为(1-α) t4_1
常用可信度为95%,99%;往后仅以95%可信度为例
一、σ未知且n 较小:按t 分布的原理用式(4-4)估计可信区间 图4-2不同自由度下t 分布
例4-2由随机抽查某地30名20岁男大学生身高均数资料得,
X =172.01cm ,S =4.20cm ,试估计该地20岁男大学生身高总体均数的95%可信区间。
本例n =30,则ν=29,查附表2,t 界值表,双侧t 0.05(29)=2.045,按式(4-4)计算:
)60.173,42.170()2920.4045.201.1722920.4045.201.172(=⨯+⨯-,
所以该地20岁男大学生身高均数的95%可信区间
为170.42cm~173.60cm 。
二、σ未知但n 足够大: 这时t 分布近似服从标准正态分布
例4-3根据例4-1资料,估计该地正常成年男子红细胞数的总体均数的95%可信区间。
本例n =200, X =4.95,X S =0.57, 双侧2/05.0u =1.96,
本资料的n 较大,所以可按式(4-5)计算:
)03.5,87.4()20057.096.195.420057.096.195.4(=⨯+⨯-,
该地正常成年男性红细胞数的总体均数的95%可信区间为4.87 ×
1012/L ~5.03×1012/L 。
三、σ已知(不论样本大小):按正态分布原理
·正确与精确问题:
区间越大,可信度越大——正确率越高,精确度越小
区间越小,可信度越小——正确率越低,精确度越大
第四节 方差的抽样误差与可信区间估计(略)
n X X X ,,,21 是正态总体),(2σμN 的一个样本,样本方差为2S ,则
2
2
)1(σS n -~2)1(-n χ 并且分布2)1(-n χ与2σ无关,故有
P(<--2)1(2/1n αχ2
2)1(σS n -<2)1(2/-n αχ)=1-α 由此得,当总体),(
2σμN 的参数2,σμ都为未知时,方差2σ的
100(1-α)%可信区间为
例4-4随机抽查了某地区80名血吸虫病人,测得血红蛋白均数为95g/L ,标准差为15g/L ,试估计总体方差。
本例n=80,2S =225,若求总体方差95%可信区间,05.0=α,
查2χ界值表得63.1062)180(025.0=-χ,15.57
2)180(975.0=-χ,按式(4-7)得 )03.311,70.166(15.57225)180(,63.106225)180(=⎪⎭
⎫ ⎝⎛⨯-⨯- 故该地区血吸虫感染者的血红蛋白的总体方差的点估计值为
225g/L ,95%区间估计值为166.70~311.02g/L 。
第五节 率的抽样误差与可信区间估计
·大样本才计算率
·率的可信区间用正态近似法
一、率的抽样误差
率的抽样误差可用率的标准误来表示
·理论公式:
式中p σ为率的标准误,π为总体率,n 为样本例数。
总体率π在 ·应用公式:
例4-5如抽样调查某地40~60岁的成年男性高血压患病得P =0.1410,n =780,估计抽样误差。
根据式(4-9),求得 标准误为 0125.0780
)1410.01(1410.0=-=p S ·率的标准误意义:类似均数标准误的意义
二、总体率的可信区间估计
1.查表法:n ≤50,且P 接近0或1的资料
例4-6某新药的毒理研究中,用20只小白鼠作急性毒性实验,死亡3只,估计该药急性致死率的95%可信区间。
解:从附表7查得,在n =20与X =3纵列交叉处的数值为3~38,即该药急性致死率的95%的可信区间为3%~38%。
注意附表7中的X 值只列出了2n X ≤部分,当2
n X >,应以X n -值查表,求总体阴性率的可信区间,然后用1减去阴性率可信区间,即得阳性率的可信区间。
如要估计例4-6资料的生存率的95%可信区间,就不能从附表7中直接查得,应先按例4-6求出急性致死率的95%可信区间,然后计算(1-38%,1-3%)=(62%,97%),即该药急性毒性实验的生存率95%可信区间为62%~97%。
2.正态近似法
当n 足够大,且nP 和n (1-P )均大于5时
(p S u p ⨯-2/α,p S u p ⨯+2/α) (4-10)
例4-7 例4-5资料,估计该地40~60岁成年男性高血压病患病率。
可信区间计算如下:
(0.1410-1.96⨯0.0125,0.1410+1.96⨯0.0125)=(0.1165,0.1655) 所以,该地区40~60岁成年男性高血压患病率的95%可信区间为11.65%~16.55%。
★ 联系:
∙ H 0:μ=μ0
∙ P 值是样本信息支持H 0的概率
∙ P(Z ≥k |μ=μ0)= 在H 0: μ=μ0条件下,误差不小于当前统计量值k 的概率
例如,单侧:P(Z ≥1.96|μ=μ0)=0.025,双侧:P(|Z|≥1.96|μ=μ0) =0.05
假设检验注意事项要点:
(1)可比性:病情是干扰(混杂)因素,例如A 组轻病人多B 组重
病人多,无可比性
(2)P 小≠差别大:
∙“差别大or 疗效大”即离差(|21x x -|)大
∙ “标准误
离差↔P ”,当n 大时,标准误可能很小,即使离差不大,也可能获得很小的P 值
∙ 分类变量资料通常采用比例∕频率进行统计学描述。
预祝。