当前位置：文档之家› 第06章抽样误差与假设检验

第06章抽样误差与假设检验

均数均数均数14
抽样分布示意图
71
54
95
36
57
77
33
92
74
15
3.
12
4.
4.
5.
5.
5.
98
4.
3.
4.
5.
4.
5.
6.
19
15
标准误的用途

t 分布

t分布
随机变量X
u X
衡量抽样误差的大小，标准误越小，样本均数与总体均数越接近，样本均数的可信度越高结合标准正态分布与t分布曲线下面积分布规律，估计总体均数的可信区间用于假设检验

23
总体均数95％可信区间为： x 1 .96 x , x 1 .96 x 同理，99％可信区间为： x 2.58 x , x 2.58 x
24
22
σ 未知
可用其估计值S 代替，但 ( X ) /( S / n ) 已不再服从标准正态分布，而是服从 t 分布。
71
12
33
74
95
15
36
57
77
98
19
3. 71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95 5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
3.
4.
3.
4.
4.
4.
4.
5.
5.
5.
5.
5.
6.
11
中心极限定理: • 实际研究中σ未知，以样本标准差S作为σ的估计值计算标准误：
统计推断 statistical inference
内容：1、参数估计(estimation of parameters) 包括：点估计与区间估计 2、假设检验（test of hypothesis)
第一节样本均数的标准误
一、均数的抽样误差和标准误
抽样试验
从正态分布总体N（5.00,0.502）中，每次随机抽取样本含量n＝5，并计算其均数与标准差；重复抽取1000次，获得1000份样本；计算1000份样本的均数与标准差，并对1000 份样本的均数作直方图。按上述方法再做样本含量n＝10、样本含量 n＝30的抽样实验；比较计算结果。
99％可信区间
X t 0.01 / 2, S X , X t 0.01 / 2, S X
*
宽小（0.01）
29
*
*
*
*
30
第三节假设检验的意义和步骤
(Hypothesis Test) 统计推断的另一个重要内容，目的是通过样本数据比较总体参数之间有无差别。
例4.4 使用黑加仑油软胶囊治疗高脂血症，30名高脂血症患者治疗前后血清甘油三酯检测结果的差值为 1.38±0.76 (g/L)，问治疗后血清甘油三酯是否有所改善？
各样本均数未必等于总体均数样本均数之间存在差异样本均数的分布很有规律，围绕着总体均数左右基本对称，也服从正态分布样本均数的变异较原变量的变异大大缩小
450 400 350 300
频数
s
450 400 350 300
频数
400 350 300
频数
抽样分布
S X S / n 0.38 / 140 0.032
问：总体均数≠样本均数的原因是什么？
5
抽样试验（n =5）
抽样试验（n =10）
抽样试验（n =30）
7
8
9
3个抽样实验结果图示
450 400 350 300
450 400
1000份样本抽样计算结果
总体均数总体标准差s 0.50 0.50 0.50 均数的均数 4.99 5.00 5.00 均数的标准差
/f?kw=yfyxx#
预防医学系卫生统计学教研室
大学精品课程网站→教学资源→（ppt、wmv）
/eol/jpk/course/layout/default/index.jsp?courseId=1204
2 3
• 抽样误差在抽样研究中不可避免 • 均数的抽样误差（sampling error) ：由于样本的随机性所造成的导致来自同一总体的样本均数之间及样本均数与总体均数间的差异。
均数
n=10 n=30
450 400 350
n 30 ; S X 0 .0920
300
频数
250 200 150 100 50 0

N（0，12）
Student t分布
x
17
X X , v n1 SX S n
自由度：n-1
18
t分布曲线
0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 -4 -3 -2 0.0 -1 0 1 2 3 4
t分布曲线下面积（附表2）
t 分布有如下性质：
自由度为1的t分布自由度为9的t分布标准正态分布
ab
21
t
单侧：tα， v 双侧：tα/2，v
可信区间的两个要素
在估计总体均数的可信区间时：估计错误的概率：α 估计正确的概率：1-α，也称为可信度，常用 95％或99％可信区间：根据一定概率估计得到的区间 95%（CI）； 99%（CI）

总体均数的可信区间的估计
1、σ已知，正态曲线下有95％的u值在±1.96间，
第三节
假设检验的意义和步骤
差值不为零的原因是什么？
① 抽样误差造成的； ② 本质差异造成的。假设检验的目的——就是判断差别是由哪种原因造成的。
32 33
一、假设检验的基本思想小概率反证法
① 抽样误差造成的：
d= 1.38
μd = 0
② 本质差异造成的：
差值=1.38 μ前>μ后
① 抽样误差造成的：H0 d= 1.38,μd = 0
总体均数μ的95％可信区间为：
x t 0.05 / 2 S x
,
,
x t 0.05 / 2 S x
x t 0.01 / 2 S x
26
总体均数μ的99％可信区间为：
不同自由度的 t 分布图
25
x t 0.01 / 2 S x
27
例4.3 试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。本例属于大样本，可采用正态近似的方法计算可信区间。因为
33
74
36
77
92
4. 12
5. 1
5. 5
5. 9
3.
4.
4.
4.
4.
5.
5.
3.
均数
6.
10
19
71
95
54
5
7
8
• 抽样误差的大小可以用样本均数的标准差来描述 X / n • 通常将统计量的标准差称标准误（Standard Error) 又称样本均数的标准差
X
12
X
92
54
20
①单峰分布，曲线在t＝0 处最高，并以t＝0为中心左右对称 ②与正态分布相比，曲线最高处较矮，两尾部翘得高（见绿线） ③ 随自由度增大，曲线逐渐接近正态分布；分布的极限为标准正态分布。
19
点估计:由样本统计量参数的估计
X、 S、 p
直接估计总体参数、、区间估计:在一定置信度（Confidence level）下，估计未知总体均数的可能范围
P29
二、样本均数的抽样分布特点

当样本含量很大的情况下，无论原始测量变量服从什么分布， X 的抽样分布均近似正态。
SX S /
n
例4.1 在某地随机抽查成年男子140人，测得红细胞数均数为4.77×102 /L，标准差0.38 ×102 /L ，试计算其抽样误差的大小：
450
四总体均数的估计
总体均数的点估计（point estimation）与区间估计（interval estimation）
f( t)
双侧t0.05/2，9＝2.262 ＝单侧t0.025，9 单侧t0.05，9＝1.833 双侧t0.01/2，9＝3.250 ＝单侧t0.005，9 单侧t0.01，9＝2.821 双侧t0.05/2，∞＝1.96 ＝单侧t0.025，∞ 单侧t0.05，∞ ＝1.64
4 . 77 ， 0 . 38 ， n 140
可信区间的涵义
总体均数95％可信区间：该区间包含总体均数的概率为95％。从总体中作随机抽样，作100次抽样，每个样本可算得一个可信区间，得100个可信区间，平均有95个可信区间包括μ(估计正确)，只有5个可信区间不包括μ(估计错误)。
1.准确度（accuracy）：反映在可信度的大小，即可行区间包含总体均数的概率大小
1 . 96 u 1 . 96 x 1 . 96 1 . 96
x
x 1 . 96 x x 1 . 96 x

2.精密度（precision）：反映在区间的长度，区间宽度越小，精密度越高
三、模拟实验
模拟抽样成年男子红细胞数。设定: μ=4.75，σ=0.39，n=140 产生100个随机样本，分别计算其95%的可信区间，结果用图示的方法表示。从图可以看出：绝大多数可信区间包含总体参数μ=4.75，只有6个可信区间没有包含总体参数（用星号标记）。
*
μ
，
则95%可信区间为：
下限：上限：
② 本质差异造成的：H1 μ前>μ后,差值=1.38
治疗前治疗前治疗前治疗后治疗后

e商务文档

第06章抽样误差与假设检验

相关文档推荐：

e商务文档

第06章 抽样误差与假设检验

相关文档推荐：

第06章抽样误差与假设检验