当前位置:文档之家› 抽样误差

抽样误差


t分布界值示意图,α表示阴影的面积 分布界值示意图, 分布界值示意图
t分布曲线下面积 分布曲线下面积
规律: 值增加, 规律:1. 同一ν下,t值增加,P值减小 值下, 增加, 反向关系 2. 同一P值下,ν增加,t值减小 双侧t 单侧t 双侧 0.05/2,∞=1.96 =单侧 0.025,∞ , ,
抽 样 实 验
表1 正常成年男子红细胞计数抽样实验结果
样本号 1 2 3 4 : 100 5.16 4.49 5.59 4.65 4.56 4.08 5.11 红细胞计数 4.26 5.11 5.70 4.53 4.88 4.74 … 5.55 4.46 … 5.32 4.53 … 4.23 4.65 … 5.33 : 5.02 :
抽 样 误 差
由于抽样而引起的样本指标(统计量) 由于抽样而引起的样本指标(统计量)与 样本指标 总体指标(参数)的差异。 总体指标(参数)的差异。 属随机误差: 属随机误差:
特点: 无倾向性; 不可避免。 特点:①无倾向性;②不可避免。
统计学的分析思路
总体 population sampling inferring
标准差
内容 性质 控制 方法
VS
标准误
SD SE 统计量的标准差 表示抽样误差大小 增大样本含量可减少
表示个体变异大小 个体变异或自然变异, 个体变异或自然变异,不可通过统计 方法来控制。 方法来控制。
算式 用途 随n 增大
S=
∑ X − (∑ X )
2
2
/n
n −1
求参考值范围 渐趋于稳定
SX = S /
第七章 参数估计
Sampling Error & Estimation of Parameter
南方医科大学生物统计学系
Department of Biostatistics Southern Medical University
主要内容
抽样误差与标准误 t分布 可(置)信区间
变 异
“世界上没有两片完全相同的叶子” 世界上没有两片完全相同的叶子” ----植物学家 ----植物学家 世界的丰富多彩来源于其多样性” “世界的丰富多彩来源于其多样性” ----哲学家 ----哲学家 个体差异是生物医学领域里普遍存在的现象” “个体差异是生物医学领域里普遍存在的现象” ----医学家 ----医学家 变异( 统计学就是研究变异 )的科学。 统计学就是研究变异(variation)的科学。
样本均数的分布
若原始分布服从正态分布, 若原始分布服从正态分布,则其样本均数服 从正态分布。 从正态分布。 若原始分布不服从正态分布, 若原始分布不服从正态分布,当样本量够大 >60), 时(如n>60),其样本均数一般服从正态分布 >60),其样本均数一般服从正态分布 (中心极限定理)。 中心极限定理)。
__
σ
n

__ X
= 0.50 / 10 = 0.16
X
样本: 样本: S = σ = S
__
X
n
不同样本量抽样实验结果图示
450 400 频数
成反比, , 与n成反比,n↑,SX↓; 成反比 ; n→∞时, SX →0,而S 时 趋近于稳定。 趋近于稳定。
450 400 350 300 频数 250 200 150 100 50 0
σX =
σ
一种统计量
n
抽 样 误 差
标准误( 标准误( Standard Error, SE) ) 样本率P等 统计学上将样本均数X、样本率 等统计量 的标准差称为标准误, 的标准差称为标准误,它可用于说明抽样误差的 称为标准误 大小。 大小。
抽 样 误 差
样本均数的标准误: 样本均数的标准差, 样本均数的标准误:即样本均数的标准差, 说明样本均数抽样误差的统计指标。 说明样本均数抽样误差的统计指标。 总体: 总体:σ =
哥赛特
t 分 布
标准化变换
µ 抽样实验中,各个X 也服从总体均数 抽样实验中,各个
标准差为
σ
一下标准化变换 =
n
的正态分布,对各个 的正态分布,对各个Xi也做
σX
t 分 布
在实际工作中, 通常是未知的, 在实际工作中,σ通常是未知的, 用各个 样本标准差S 估计σ 样本标准差 i估计σ ,则得到 该式已经不服从标准正态分布了, 该式已经不服从标准正态分布了, 而是 t分布
α / 2,v
单侧界值 :一侧尾部面积为α时对应的t 值
t α/ 2, ν
对称性: 对称性:2×单侧曲线下面积=双侧曲线下面 单侧曲线下面积= 同一t值单侧概率是双侧概率的一半。 积,同一t值单侧概率是双侧概率的一半。
t 界值表
有关。 给定曲线下面积对应的界值与自由度ν有关。 同样的尾部面积, 分布的界值要大于标准 同样的尾部面积,t分布的界值要大于标准 正态分布的界值
抽 样 误 差
可见, 由表1可见,各个样本均数Xi 并不等于相应的 总体均数5.00,相互间也不完全相同。 总体均数5.00,相互间也不完全相同。 5.00 由数理统计可证明,这些样本均数服从均数为 由数理统计可证明, µ(本例为5.00),标准差为σX的正态分布。 (本例为5.00), 的正态分布。 5.00) 其中, 的计算公式为: 其中,σX的计算公式为:
X
5.04 5.03 4.71 4.66 : 4.90
S 0.44 0.52 0.33 0.46 : 0.29
4.65 5.59 4.87 4.73 5.21 4.84 : 5.26
4.64 … 4.56
抽 样 实 验
总体
0.57
__
__
S2
X100
S100
抽 样 误 差
由数理统计的中心极限定理可知, 由数理统计的中心极限定理可知,无论原始 中心极限定理可知 总体为何种分布, 只要它具有总体均数µ和标准 总体为何种分布, 只要它具有总体均数 和标准 差σ,当样本含量足够大时(n≥60),X都近似 ,当样本含量足够大时( ≥60) 都近似 服从均数为μ, 标准差为σ 的正态分布。 服从均数为μ, 标准差为 X 的正态分布。
均数
3. 71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95 5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
3. 71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95 5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
t 界值表
单侧(one-sided/tailed): 单侧( )
P(t ≤ −tα,ν ) = P(t ≥ tα,ν ) =α
双侧( 双侧(two-sided/tailed): ) P(t ≤ −tα 2,ν &t ≥tα 2,ν ) =α
⇒P(−tα 2,ν <t <tα 2,ν ) =1−α
t 界值表
3. 71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95 5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
350 300 250 200 150 100 50 0
n =5
450
n =10
频数
400 350 300 250 200 150 100 50 0
求可信区间 渐趋于0 渐趋于0
n
t 分 布
t Distribution
t分布的发现 分布的发现
早在1875年 德国天文学家、 早在1875年,德国天文学家、测 1875 量学家F.R.Helmert 就在数学上 量学家 分布。 发现了t分布。
希尔米特
1908年 1908年Gosset以Student为笔名 以 为笔名 发表的论文, 发表的论文,提出了t分布的概 念,从而开创了小样本统计推 断的新纪元。 断的新纪元。
-1.96
0
1.96
0
1.64




Estimation of Parameter
参 数 估 计
统 计 分 析
统计描述 点 估 计 参数估计 统计推断 假设检验 区间估计
参数估计(estimation of parameter): :
——用样本统计量估计总体参数。 ——用样本统计量估计总体参数。 用样本统计量估计总体参数
t分 布
t分布与标
准正态分布 的区别在于: 的区别在于: 中间小, 中间小,两 尾翘( 尾翘(大)。 t分布与Z分 布曲线下面 积均为1 积均为1。 N(0,1) t(n)
X
0
t 分布与正态分布的比较
t 界值表
给定自由度ν,t分布曲线的双侧尾部面积为 α时对应的t值,记为tα/2,ν并称其为t的双侧界 并称其为t t 值.
t分布
分布特征 t分布曲线是单峰的 分布曲线是单峰 单峰的 关于t=0对称 对称 t分布与标准正态分布的关系 自由度ν较小时,t分布与标准正态分布相 较小时, 差较大,并且t 差较大,并且t分布曲线的尾部面积大于标 准正态分布曲线的尾部面积 当自由度ν → ∞ 时,t分布逼近于标准正态 分布。 分布。
抽 样 误 差
由于事物间普遍存在着变异, 由于事物间普遍存在着变异,由此产生了 变异 这么一个现象: 这么一个现象: 由于抽样而引起的误差 —— 抽样误差
抽 样 误 差
定义: 定义: 抽样误差( error): ):是指由 抽样误差(sampling error):是指由 于样本的随机性引起的统计量与参数的差别, 样本的随机性引起的统计量与参数的差别, 引起的统计量与参数的差别 或同一总体的相同统计量之间的差别。 或同一总体的相同统计量之间的差别。
中心极限定理(central limit theorem) 中心极限定理
相关主题