当前位置:
文档之家› 第06章 抽样误差与假设检验
第06章 抽样误差与假设检验
均数均数均数14
抽样分布示意图
71
54
95
36
57
77
33
92
74
15
3.
12
4.
4.
5.
5.
5.
98
4.
3.
4.
5.
4.
5.
6.
19
15
标准误的用途
t 分布
t分布
随机变量X
u X
衡量抽样误差的大小,标准误越小,样本均数与 总体均数越接近,样本均数的可信度越高 结合标准正态分布与t分布曲线下面积分布规律, 估计总体均数的可信区间 用于假设检验
23
总体均数95%可信区间为: x 1 .96 x , x 1 .96 x 同理,99%可信区间为: x 2.58 x , x 2.58 x
24
22
σ 未知
可用其估计值S 代替,但 ( X ) /( S / n ) 已不再服从标准正态分布, 而是服从 t 分布。
71
12
33
74
95
15
36
57
77
98
19
3. 71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95 5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
3.
4.
3.
4.
4.
4.
4.
5.
5.
5.
5.
5.
6.
11
中心极限定理: • 实际研究中σ未知,以样本标准差S作为σ的估计值 计算标准误:
统计推断 statistical inference
内容:1、参数估计(estimation of parameters) 包括:点估计与区间估计 2、假设检验(test of hypothesis)
第一节 样本均数的标准误
一、均数的抽样误差和标准误
抽样试验
从正态分布总体N(5.00,0.502)中,每次 随机抽取样本含量n=5,并计算其均数与标 准差;重复抽取1000次,获得1000份样本; 计算1000份样本的均数与标准差,并对1000 份样本的均数作直方图。 按上述方法再做样本含量n=10、样本含量 n=30的抽样实验;比较计算结果。
99%可信区间
X t 0.01 / 2, S X , X t 0.01 / 2, S X
*
宽 小(0.01)
29
*
*
*
*
30
第三节 假设检验的意义和步骤
(Hypothesis Test) 统计推断的另一个重要内容,目的是通过 样本数据比较总体参数之间有无差别。
例4.4 使用黑加仑油软胶囊治疗高脂血症,30名高脂血 症患者治疗前后血清甘油三酯检测结果的差值为 1.38±0.76 (g/L),问治疗后血清甘油三酯是否有所改 善?
各样本均数未必等于总体均数 样本均数之间存在差异 样本均数的分布很有规律,围绕着总体均数左右 基本对称,也服从正态分布 样本均数的变异较原变量的变异大大缩小
450 400 350 300
频数
s
450 400 350 300
频数
400 350 300
频数
抽样分布
S X S / n 0.38 / 140 0.032
问: 总体均数≠样本均数的原因是什么?
5
抽样试验(n =5)
抽样试验(n =10)
抽样试验(n =30)
7
8
9
3个抽样实验结果图示
450 400 350 300
450 400
1000份样本抽样计算结果
总体均 数 总体标 准差s 0.50 0.50 0.50 均数的 均数 4.99 5.00 5.00 均数的标准差
/f?kw=yfyxx#
预防医学系 卫生统计学教研室
大学精品课程网站→教学资源→(ppt、wmv)
/eol/jpk/course/layout/default/index.jsp?courseId=1204
2 3
• 抽样误差在抽样研究中不可避免 • 均数的抽样误差(sampling error) : 由于样本的随机性所造成的导致来自同一总 体的样本均数之间及样本均数与总体均数间 的差异。
均数
n=10 n=30
450 400 350
n 30 ; S X 0 .0920
300
频数
250 200 150 100 50 0
N(0,12)
Student t分布
x
17
X X , v n1 SX S n
自由度:n-1
18
t分布曲线
0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 -4 -3 -2 0.0 -1 0 1 2 3 4
t分布曲线下面积(附表2)
t 分布有如下性质:
自由度为1的t分布 自由度为9的t分布 标准正态分布
ab
21
t
单侧:tα, v 双侧:tα/2,v
可信区间的两个要素
在估计总体均数的可信区间时: 估计错误的概率:α 估计正确的概率:1-α,也称为可信度,常用 95%或99% 可信区间:根据一定概率估计得到的区间 95%(CI) ; 99%(CI)
总体均数的可信区间的估计
1、σ已知, 正态曲线下有95%的u值在±1.96间,
第三节
假设检验的意义和步骤
差值不为零的原因是什么?
① 抽样误差造成的; ② 本质差异造成的。 假设检验的目的——就是判断差别是由哪 种原因造成的。
32 33
一、假设检验的基本思想 小概率反证法
① 抽样误差造成的:
d= 1.38
μd = 0
② 本质差异造成的:
差值=1.38 μ前>μ后
① 抽样误差造成的:H0 d= 1.38,μd = 0
总体均数μ的95%可信区间为:
x t 0.05 / 2 S x
,
,
x t 0.05 / 2 S x
x t 0.01 / 2 S x
26
总体均数μ的99%可信区间为:
不同自由度的 t 分布图
25
x t 0.01 / 2 S x
27
例4.3 试计算例4.1中该地成年男子红细胞总 体均数的95%可信区间。 本例属于大样本,可采用正态近似的方法计 算可信区间。因为
33
74
36
77
92
4. 12
5. 1
5. 5
5. 9
3.
4.
4.
4.
4.
5.
5.
3.
均数
6.
10
19
71
95
54
5
7
8
• 抽样误差的大小可以用样本均数的标准差 来描述 X / n • 通常将统计量的标准差称标准误(Standard Error) 又称样本均数的标准差
X
12
X
92
54
20
①单峰分布,曲线在t=0 处 最高,并以t=0为中心左右 对称 ②与正态分布相比,曲线最 高处较矮,两尾部翘得高( 见绿线) ③ 随自由度增大,曲线逐渐 接近正态分布;分布的极限 为标准正态分布。
19
点估计:由样本统计量 参数的估计
X、 S、 p
直接估计 总体参数 、 、 区间估计:在一定置信度(Confidence level) 下,估计未知总体均数的可能范围
P29
二、样本均数的抽样分布特点
当样本含量很大的情况下,无论原始测量变量服从 什么分布, X 的抽样分布均近似正态。
SX S /
n
例4.1 在某地随机抽查成年男子140人,测得红细胞 数均数为4.77×102 /L,标准差0.38 ×102 /L ,试计算 其抽样误差的大小:
450
四 总体均数的估计
总体均数的点估计(point estimation) 与区间估计(interval estimation)
f( t)
双侧t0.05/2,9=2.262 =单侧t0.025,9 单侧t0.05,9=1.833 双侧t0.01/2,9=3.250 =单侧t0.005,9 单侧t0.01,9=2.821 双侧t0.05/2,∞=1.96 =单侧t0.025,∞ 单侧t0.05,∞ =1.64
4 . 77 , 0 . 38 , n 140
可信区间的涵义
总体均数95%可信区间:该区间包含总体均数的概率为95%。 从总体中作随机抽样,作100次抽样,每个样本可算得一个可 信区间,得100个可信区间,平均有95个可信区间包括μ(估 计正确),只有5个可信区间不包括μ(估计错误)。
1.准确度(accuracy):反映在可信度的大 小,即可行区间包含总体均数的概率大小
1 . 96 u 1 . 96 x 1 . 96 1 . 96
x
x 1 . 96 x x 1 . 96 x
2.精密度(precision):反映在区间的长度, 区间宽度越小,精密度越高
三、模拟实验
模拟抽样成年男子红细胞数。设定: μ=4.75,σ=0.39,n=140 产生100个随机样本,分别计算其95%的可信区间,结果用图 示的方法表示。从图可以看出:绝大多数可信区间包含总体 参数μ=4.75,只有6个可信区间没有包含总体参数(用星号标 记)。
*
μ
,
则95%可信区间为:
下限: 上限:
② 本质差异造成的:H1 μ前>μ后,差值=1.38
治疗前 治疗前 治疗前 治疗后 治疗后