当前位置：文档之家› 抽样误差与区间估计(精)

抽样误差与区间估计(精)

第四章抽样误差与区间估计
(中大.公卫学院.医学统计与流行病学系.骆福添.020-********)
第一节均数的抽样误差
·统计推断：用样本的信息去推断总体特征的方法称为统计推断(statistical inference)。

·抽样误差(sampling error)：样本指标与总体指标(参数)的差别要点：由个体变异引起的、不可避免的、有规律性的
·抽样实验：表4-1，图4-1
表4-1 从总体N(4.83, 0.522)中抽出100个样本(n=10)的
X、S、t值与的95%的可信区间tCI
tCI
·抽样实验结果提示：
（1）样本均数X 以μ为中心呈正态分布
（2）离样本均数X 的散程度为
·
标准误(standard error)：度量抽样误差大小的指标（统计量），
其实质是样本指标的变异程度，（联系抽样实验：样本均数的标准差称为样本均数的标准误）
可推导出计算公式为：
此公式几乎不实用，不妨称之为理论标准误
用样本S 代替σ，得样本标准误为： ·标准误意义：
（1）标准误小表示样本均数可靠性越大
（2）样本均数结合标准误，对总体作统计推断（后述）
例4-1随机抽取某地200名成年男性的红细胞数均数为4.95×
1012/L ，标准差为0.57×1012/L ，估计其抽样误差。

040.020057
.0===n S S X (1012/L)
所以该样本的抽样误差为0.04×1012/L 。

样本均数图4-1 100个样本均数的直方图
第二节均数的抽样误差的分布－t 分布
·标准化变换：()X X σμ
-
·标准化值的分布：
（1）已知总体标准差σ时，()X X u σ
μ
-=，服从标准正态分布（2）未知总体标准差σ时，)X S X t μ-=，服从t 分布
（3）大样本时，()X S X u μ-≈，近似服从标准正态分布
·t 分布：
ν为自由度(degree of freedom)，每个自由度都对应一条分布曲线
·t 分布的特征：
①以0为中心，左右对称的单峰分布；（外观：…）
②t 分布曲线是一簇曲线，其形态变化与自由度ν的大小有关。

自由度ν越小，则t 值越分散，曲线越低平；自由度ν逐渐增大时，t 分布逐渐逼近u 分布(标准正态分布)；（参数：+ν）
③当ν趋于∞时，t 分布即为u 分布。

（面积：尾巴较大、界值较大） ·t 分布界值表（Page406）
双侧t 0.10(30) ＝单侧t 0.05(30) ＝ 1.679
第三节总体均数的可信区间估计 ·点估计：估计总体参数在某一点上，如μ
ˆ=X ·区间估计·可信度/置信度/把握度：区间估计时，估计正确的概率
约定α＝错误概率，则可信度为（1－α） t4_1
常用可信度为95%，99%；往后仅以95%可信度为例
一、σ未知且n 较小：按t 分布的原理用式(4-4)估计可信区间图4-2不同自由度下t 分布
例4-2由随机抽查某地30名20岁男大学生身高均数资料得，
X =172.01cm ，S =4.20cm ，试估计该地20岁男大学生身高总体均数的95％可信区间。

本例n =30,则ν＝29，查附表2，t 界值表，双侧t 0.05(29)=2.045，按式(4-4)计算：
)60.173,42.170()2920.4045.201.1722920.4045.201.172(=⨯+⨯-，
所以该地20岁男大学生身高均数的95％可信区间
为170.42cm~173.60cm 。

二、σ未知但n 足够大：这时t 分布近似服从标准正态分布
例4-3根据例4-1资料，估计该地正常成年男子红细胞数的总体均数的95%可信区间。

本例n =200, X ＝4.95，X S =0.57, 双侧2/05.0u ＝1.96，
本资料的n 较大，所以可按式(4-5)计算：
)03.5,87.4()20057.096.195.420057.096.195.4(=⨯+⨯-，
该地正常成年男性红细胞数的总体均数的95％可信区间为4.87 ×
1012/L ～5.03×1012/L 。

三、σ已知（不论样本大小）：按正态分布原理
·正确与精确问题：
区间越大，可信度越大——正确率越高，精确度越小
区间越小，可信度越小——正确率越低，精确度越大
第四节方差的抽样误差与可信区间估计（略）
n X X X ,,,21 是正态总体),(2σμN 的一个样本，样本方差为2S ，则
2
2
)1(σS n -～2)1(-n χ 并且分布2)1(-n χ与2σ无关，故有
P(<--2)1(2/1n αχ2
2)1(σS n -<2)1(2/-n αχ)=1-α 由此得，当总体),(
2σμN 的参数2,σμ都为未知时，方差2σ的
100(1－α)％可信区间为
例4-4随机抽查了某地区80名血吸虫病人，测得血红蛋白均数为95g/L ，标准差为15g/L ，试估计总体方差。

本例n=80，2S =225,若求总体方差95％可信区间，05.0=α，
查2χ界值表得63.1062)180(025.0=-χ，15.57
2)180(975.0=-χ，按式(4-7)得 )03.311,70.166(15.57225)180(,63.106225)180(=⎪⎭
⎫ ⎝⎛⨯-⨯- 故该地区血吸虫感染者的血红蛋白的总体方差的点估计值为
225g/L ，95%区间估计值为166.70～311.02g/L 。

第五节率的抽样误差与可信区间估计
·大样本才计算率
·率的可信区间用正态近似法
一、率的抽样误差
率的抽样误差可用率的标准误来表示
·理论公式：
式中p σ为率的标准误，π为总体率，n 为样本例数。

总体率π在 ·应用公式：
例4-5如抽样调查某地40~60岁的成年男性高血压患病得P =0.1410，n =780，估计抽样误差。

根据式(4-9)，求得标准误为 0125.0780
)1410.01(1410.0=-=p S ·率的标准误意义：类似均数标准误的意义
二、总体率的可信区间估计
1.查表法：n ≤50，且P 接近0或1的资料
例4-6某新药的毒理研究中，用20只小白鼠作急性毒性实验，死亡3只，估计该药急性致死率的95%可信区间。

解：从附表7查得，在n =20与X =3纵列交叉处的数值为3~38，即该药急性致死率的95%的可信区间为3%~38%。

注意附表7中的X 值只列出了2n X ≤部分，当2
n X >，应以X n -值查表，求总体阴性率的可信区间，然后用1减去阴性率可信区间，即得阳性率的可信区间。

如要估计例4-6资料的生存率的95%可信区间，就不能从附表7中直接查得，应先按例4-6求出急性致死率的95%可信区间，然后计算(1-38%，1-3%)=(62%，97%)，即该药急性毒性实验的生存率95％可信区间为62%~97%。

2.正态近似法
当n 足够大，且nP 和n (1-P )均大于5时
(p S u p ⨯-2/α，p S u p ⨯+2/α) (4-10)
例4-7 例4-5资料，估计该地40～60岁成年男性高血压病患病率。

可信区间计算如下：
(0.1410-1.96⨯0.0125，0.1410＋1.96⨯0.0125)＝(0.1165，0.1655) 所以，该地区40～60岁成年男性高血压患病率的95％可信区间为11.65％～16.55％。

预祝。

e商务文档

抽样误差与区间估计(精)

相关文档推荐：