当前位置:文档之家› 第四章抽样误差与假设检验

第四章抽样误差与假设检验

? 精密度:即区间的宽度, 区间愈窄愈好。当样 本含量为定值时,上述两者互相矛盾。
? 在可信度确定的情况下,增加 样本含量可减小 区间宽度。
二、总体均数可信区间的计算
? 计算方法:
? σ已知,按 u分布。 ? σ未知,但 n足够大,按 u分布。 ? σ未知,且 n较小,按t分布。
1.σ已知时,总体均数双侧可信区间为 :
本 例 n = 2 0 0 , X = 4. 9 5 ,S = 0. 5 7 , 双 侧 = Z0.05/ 2 1. 9 6 ,
本资料的 n 较大,所以有:
(4.95 ? 1.96 ? 0.57 ,4.95 ? 1.96 ? 0.57 ) ? (4.87, 5.03)
200
200
该 地 正 常 成 年 男 性 红 细 胞 数 的 总 体 均 数 的 95% 可 信 区 间 为 4. 8 7 × 1 0 1 2 / L ~ 5. 0 3 × 1 0 1 2 / L 。
三、标准误
? 由于实际 ? X往往未知,需要用样本 来S估X 计 ,样? X本均数标准误的估计式:
? 注意区别:
SX ?
SX n
S和SX
? 和? X
第二节 总体均数的估计
参数的估计
点估计: 将样本统计量作为 总体参数的估计
区间估计: 按预先给定的概率确定 一个包含未知总体参数的范围,称 为参数的可信区间或置信区间 (confidence interval,CI)
? ? X ? U? 2? X
=
? ??
X
?
U?
2
??
n ??
2.σ未知但n较大时,按u分布计算总体 均数的可信区间
? ? X ? U? 2 SX
=
? ??
X
?
U?
2
S? n ??
例 4-3 根 据 例 4-1 资 料 ,估 计 该 地 正 常 成 年 男 子 红 细 胞 数 的 总 体 均 数 的 95% 可 信 区 间 。
机抽样。样本大小为 30
? ,? 2
n=30 X1 , S1 X2 , S2
X j , S3
Xn , Sn
… ….
二、抽 样 误 差
若从正态总体 N(155抽.4,样5.3得2 ) 到1000个样本,将 1000个
样本均数看成新变量,构成新的分布:
组段 152.9153.5154.1154.7155.3155.9156.5157.1157.7158.3-158.9
? 标准误的大小:
?x ?
?
n
? n一定时,标准误与标准差呈正比; ? 标准差一定,标准误与 n的平方根成反比 ? 增加样本含量可减少抽样误差
三、标准误
标准误主要用途:
? 衡量抽样误差大小 ,SE 越小,样本均数可信度 越高
? 结合标准正态分布和 t分布曲线下的面积规律, 估计总体均数的置信区间
? 应用于假设检验
的一个近似值 (估计值)代替? ,得到变换后的 统计量并记为
t? X??
Sn
第三节t分布
? 英国统计学家 W. S. Gosset(1908)设 X ~ N (? ,? 2 )
,称统计量 t的分布规律为 t分布,自由度为 v:
? 由抽样引起的 样本统计量 与总体参数间(或 各统计量之间) 的差异
? 抽样误差不可避免 ? 抽样误差有一定的规律性
三、标准误
中心极限定理:
? 若 也个服体从资 正Xj料 态分X服布i 从:正态总体
N(,? ,?则2样) 本均数
Xj ~ N(? ,? X2 )
? 个体资料 Xi 服从偏态分布,当 样本量n较大时, 样本均数 近似X服j 从正态分布:
频数 9 34 94 191 255 216 116 63 20 2
频率(%) 累计频率(%)
0.90
0.90
3.40
4.30
9.40
13.70
19.10
32.80
25.50
58.30
21.60
79.90
11.60
91.50
6.30
97.80
2.00
99.80
0.20
100.00
二、抽 样 误 差
Mean=155.426 Std=0.966
二、抽 样 误 差
? 样本均数的分布特点:
? 各样本均数不一定等于总体均数 ? 样本均数间存在差异
? 样本均数的分布为中间多,两边少, 围绕总体 均数 上下波动,左右基本对称。
? 样本均数的变异 较之原变量的变异大大减小。
二、抽 样 误 差
? 抽样误差(Sampling error)
一、可信区间的有关概念
? 可信度:
? 事先给定的概率 (1?? )称为置信度或可信度 ,常 取95% 或99% ;
? 估计总体均数可信区间时,可能估计错误,错 误概率为? ;
? 估计正确的概率为 (1?? ),
? 可信区间的上下界为可信限:
? 较小的称为下限( lower limit,L ) ? 较大的称为上限( upper limit,U)
一、可信区间的有关概念
可信区间的含义:
95%可信区间表示该区间总含总体均数 μ的 概率为95%; 若作100次抽样算得100个可信区间,平均有 95个可信区间包含μ,有5个可信区间不包含 μ,即估计错误。
一、可信区间的有关概念
可信区间估计的优劣:
? 准确度: 即可信度1?? ,愈接近1愈好,如99% 的可信度比 95%的可信度要好;
Xj ~ N(? ,? X2)
三、标准误
? 样本均数的标准差 ? X ,称为样本均数的标准误 (standard error of mean),简称标准误( SE ) 。
? 标准误意义: 反映样本均数抽样误差的大小 ,SE 越 大,均数的抽样误差越大,说明样本均数与总体均
数间的变异越大 。
三、标准误
第四章 抽样误差与假设检验
崔琳林
第一节 均数的抽样误差与标准误
一、抽 样 研 究
? 按照随机化原则 ? 采用正确的抽样方法 ? 从总体中抽取有代表性的一部分
组成样本 ? 用样本信息推断总体特征的研究
统计推断
二、抽 样 误 差
ห้องสมุดไป่ตู้
? 已知k市初中女生身高总体均数 ?为155.4cm, 标准差为 为5.3cm的?正态分布,从总体中随
3.σ未知且n较小时,按t分布计算总 体均数的可信区间
双侧 1? ? 可信区间为:
? ? X ? t? S 2,? X
思考
总体均数可信区间与 参考值范围的区别和联系?
第三节 t 分布
? X ~ N,(标? ,准?正2 )态分布与 U统计量
U ? X ? ? ~ N(0,1) ?n
? 实际研究中 ? 未知,用样本的标准差 S作为?
相关主题