当前位置:
文档之家› 05 抽样误差 可信区间估计
05 抽样误差 可信区间估计
2019年6月18日4时58分
14
2、中心极限定理 central limit theorem
①即使从非正态总体中抽取样本,所得均数分布仍近似呈正态。 ②随着样本量的增大, 样本均数的变异范围也逐渐变窄。
2019年6月18日4时58分
15
t分布与可信区间
一、t分布
二、总体均数的估计 总体均数的点估计(point estimation)与区间 估计 总体均数的可信区间(confidence interval, CI) 大样本总体均数的可信区间
均数
450 400 350 300 250 200 150 100 50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
9
抽样实验小结
均数的均数围绕总体均数上下波动。
均数的标准差即标准误 X 与总体标准差 相差
宽
小(0.01)
30
区别点
总体均数可信区间
参考值范围
按预先给定的概率(可信度),确定的未知参数 的可能范围。 “正常人”的解剖,生理,
含 实际上一次抽样算得的可信区间要么包含了总体均数,要么 生化某项指标的波动范围。
不包含,二者必居其一,无概率可言;所谓 95%的可信度是
义 针对可信区间的构建方法而言。
标准正态分布
N(0,1)
标准正态分布
N(0,1)
Student t分布 自由度:n-1
17
t分布的概率密度函数
f (t) ( 1) 2 (1 t 2 / )( 1) 2
( 2)
式中 () 为伽玛函数; 圆周率(Excel函数为
PI( ))
为自由度(degree of freedom),是t分布
参数的估计
点估计:由样本统计量 X、S、p 直接估计 总体参数 、、
区间估计:按照预先给定的概率 (可信度),同时考虑抽样误差, 计算出一个区间,使它能够包含 未知的总体参数。
2019年6月18日4时58分
21
Confidence interval
可信度:事先给定的概率1-α称为可信度 一般,α取0.05 or 0.01,则1-α为0.95 or 0.99 可信区间(confidence interval,CI):计算得到的区 间称为可信区间。 可信限(confidence limit,CL):界定可信区间的两 个数值,上限和下限 总体均数估计的95%可信区间:表示该区间包括 总体均数μ的概率(可能性)为95%,即若作100 次抽样算的100个可信区间,则平均有95个可信区 间包括μ(估计正确),只有5个可信区间不包括μ (估计错误)。
通常未知,这时可以用其估计量S 代替,但 已不再服从标准正态分布,而是服从著
名的t 分布。
William Gosset
图6-1 不同自由度的 t 分布图
(二)σ未知且n较小时
t
X SX
X S
n
P(X
t0.052( )
S n
X
t0.052( )
S) n
0.95 0.025
①一簇单峰分布曲线,在
t=0 处最高,并以t=0为
中心左右对称
②与正态分布相比,曲线 最高处较矮,两尾部翘得 高(见绿线)
③ 随自由度增大,曲线逐 渐接近正态分布;分布的 2 3 4 极限为标准正态分布。
2019年6月18日4时58分
19
t分布曲线下面积(附表2)
2019年6月18日4时58分
双侧t0.05/2,9=2.262 =单侧t0.025,9
三、可信区间的解释
2019年6月18日4时58分
16
一、t分布(t distribution)
随机变量X N(,2)
u X
u变换
均数
X
N (, 2 n)
u X n
t变换
t X X , v n 1
S n SX
实际:s , sx x 或n较小时
的唯一参数;t为随机变量。 以t为横轴,f(t)为纵轴,可绘制t分布曲线。
2019年6月18日4时58分
18
t分布曲线
0.4 f( t) 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 -4 -3 -2 -1 0 1
t
t 分布有如下性质:
自由度为1的t分布 自由度为9的t分布 标准正态分布
包括:点估计与 区间估计
2. 假设检验(test of hypothesis)
2019年6月18日4时58分
2
一、均数的抽样误差
抽取部分观察单位
总体
样本
参数
统计推断
如:总体均数
总体标准差
总体率
统计量 如:样本均数 X
样本标准差S 样本率 P
抽样误差 (sampling error) :由于 抽样和变异引 起的样本统计 量与总体参数 间的差异或者 来自同一总体 的不同样本统 计量之间的差 异。
单侧t0.05,9=1.833 双侧t0.01/2,9=3.250
=单侧t0.005,9 单侧t0.01,9=2.821 双侧t0.05/2,∞=1.96
=单侧t0.025,∞ 单侧t0.05,∞ =1.64
20
二、总体均数的估计
1. 总体均数的点估计(point estimation)与 区间估计(interval estimation)
2019年6月18日4时58分
12
标准差与标准误的联系与区别
2. 随着样本量不断增大,样本标准差随机波 动的幅度越来越小,并且稳定在总体标准 差附近;随着样本量不断增大,样本均数 的标准误越来越小,并且趋向于0;
3. 样本含量n相同时,标准差越大,标准误相 对越大;标准差越小,标准误也相对越小。
2019年6月18日4时58分
0.025
Байду номын сангаас
t0.052( )
0 t分布曲线
t0.052( )
95%可信区间:(X
t0.052( )
S ,X n
t0.052( )
S) n
一
般
情
况
α/2
可信区间: (X
t 2( )
S ,X n
t 2( )
S) n
t 2( )
1-α
0 t分布曲线
α/2 t 2( )
括μ(估计正确),只有5个可信区间不包括 μ(估计错误)。
95%可信区间
公式 X
t 0.05 / 2,
S X
,
X t S 0.05 / 2, X
区间范围
窄
估计错误的概率 大(0.05)
2019年6月18日4时59分
99%可信区间
X
t0.01 / 2,
S X
,
X t S 0.01/ 2, X
13
标准差与标准误的区别与联系
标准差
标准误
1意义: 描述一组变量值之间的离散
区
程度(个体差异)
描述样本统计量间的离散 程度(抽样误差)
别
可用于估计某变量的正常值 估计总体参数所在的可信
2应用: 范围,n越大,标准差越趋于 区间,n越大,标准误越
稳定→σ
小→ 0
联 系
二者均是表示变异度大小的统计指标, n一定时,标准误与标准差成正比。
n=30 5.00 0.50 5.00
均数标准差
Sn
0.2212
0.1580
0.0920
n
0.2236 0.1581 0.0913
2019年6月18日4时58分
8
3个抽样实验结果图示
频数
450
400 350
n 5; S X 0.2212
300
250
200
150
100
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
总体均数的波动范围
计算
未知:
X
t ,
S X
*
公式 已知或未知但 n>100: X u X 或 X u SX **
用途 总体均数的区间估计
个体值的波动范围
正态分布: X u S **
偏态分布:PX~P100X
绝大多数(如 95%)观察对象
* t, 也可用 t /2, (对应于双尾概率时) ** u, 也可用 u /2, (对应于双尾概率时)
一个常数的倍数,即 / n X
实替,际得工到作标中准,误的未估知计时值,s可X用,样即本 标准差s代
s s/ n X
从正态总体N(μ,σ2)中抽取样本,获得均数的分 布仍近似呈正态分布N(μ,σ2/n) 。
2019年6月18日4时58分
10
标准误的应用
表示抽样误差大小:同质的资料标准误越小,表 明样本均数越接近于总体均数,抽样误差越小, 说明由样本均数推断总体均数的可靠性越大。反 之,标准误越大,表明样本均数远离总体均数, 抽样误差大,说明由样本均数推断总体均数的可 靠性小。医学文献中常以 x sx 表示资料的均 数及可靠程度。 确定总体均数的可信区间:结合样本均数对总体 均数做区间估计。 进行均数的t检验。
2019年6月18日4时59分
27
例 1 某市120名7岁男童的身高均数为 123.62cm,标准差为4.75cm,计算该市7岁 男童总体均数90%的可信区间
X 123.62, S 4.75, Sx 0.4336