第五章 参数估计基础.
mm MIDPOINT
1)从正态总体N(µ ,σ2)中,随机抽取例数为n的 多个样本,样本均数 也近似正态分布。 2)从均数为µ ,标准差为σ的正态或偏态总体中抽 取例数为n的样本,样本均数的标准差即标准误为 。 服从正态分布;即使是从 偏态总体中随机抽样,当n足够大时(如n>50),
(标准误的理论值) 标准误的大小与σ的大小成正比,与n成反比,而 σ为定值,说明可以通过增加样本例数来减少标准误, 以降低抽样误差。 σ未知,用样本标准差S来估计总体标准差σ。
会减小 tа,ν 和
X 1.96S X , X 1.96S X X 1.96S X , X 1.96S X
(双侧)
例5-4 某市2000年随机测量了90名19岁健康男大学生
的身高,其均数为172.2cm,标准差为4.5cm,,试估计
该地19岁健康男大学生的身高的95%置信区间。
该市19岁健康男大学生的身高的95%置信区间 (171.3,173.1)cm
二、置信区间的计算方法
(一)总体均数置信区间的计算 (1)σ已知,按标准正态分布原理计算
由z分布,标准正态曲线下有95%的z值在±1.96之间。
95%的双侧置信区间: X 1.96 X , X 1.96 X
99%的双侧置信区间: X 2.58 , X 2.58 X X
通式: (双侧)
Zа/2为标准正态变量,Zа/2相当于按ν=∞时及P取α,由附表2 查的的t界值。
(2)σ未知但样本例数n足够大(n>50)时
由t分布可知,自由度越大,t分布越逼近标准正态分 布,此时t曲线下有95%的t值约在±1.96之间,即
95%的双侧置信区间: 99%的双侧置信区间: 通式:
t分布
更一般的表示方法如图5-4(a)和(b)中阴影部分所示为:
单侧:P(t t, )= 和 P(t t , )= 双侧:P(t t/2, )+P(t t /2, )=
t分布
从t界值表中或表的右上角图列亦可看出: ①在相同自由度时,│t│值越大,概率P越小; ②而在相同t值时,双侧概率P为单侧概率P的 两倍,即t0.10/2,16 = t0.05,16 =1.746。
(3)σ未知且样本例数n较小时,按t分布原理,此时
某自由度的t曲线下有95%的t值约在±t0.05(ν)之间,
95%的双侧置信区间:
99%的双侧置信区间:
通式:
X t X t
0.05 / 2 S X , X t 0.05 / 2 S X
0.05 / 2 S X , X t 0.05 / 2 S X
第三节
总体均数及总体概率的估计
一、参数估计的方法
参数估计
点估计(point estimation)
区间估计(interval estimation)
1.点估计: 用样本统计量直接作为总体参数的估计值。
例如 于2000年测得某地27例健康成年男性血红蛋白量
的样本均数为125g/L,试估计其总体均数。
间多,两边少,左右基本对称,也服从正态分布
4 样本均数的变异较之原变量大大缩小
• 抽样实验二:非正态总体样本均数的抽 样实验(实验5-2) 图5-1(a)是一个正偏峰的分布, 用电脑从中随机抽取样本含量分别为5, 10,30和50的样本各1000次,计算样本 均数并绘制4个直方图
PERCENT 30
tа
/2,ν
是按自由度ν =n-1,由附表2查得的t值。
例5-3 已知某地27例健康成年男性血红蛋白量的均数 为 ,标准差S=15g/L ,试问该地健康成年男性
血红蛋白量的95%和99%置信区间。 本例n=27,S=15
95%CI:
99%CI:
置信区间的两个要素: 1. 准确度:反映置信度1-α的大小,即区间包 含总体均数的概率大小。 2. 精度:反映区间的长度。 在置信区间确定的情况下,增加样本例数,
SX S / n
用
(标准误的估计值)
来表示均数抽样误差的大小。
例5-1
2000年某研究所随机调查某地健康
成年男子27人,得到血红蛋白的均数为125g/L,
标准差为15g/L 。试估计该样本均数的抽样误差。
二 、样本频率的抽样分布与抽样误差
表示频率的抽样误差大小的指标叫频率的标准误。
据数理统计的原理,率的标准误用
则
越大,t 值越分散,曲线的峰部越矮,尾部翘的
3) 当 n→∞时,则S逼近σ,t分布逼近标准 正态分布。 t分布不是一条曲线,而是一簇曲线。
越高。
υ=∞(标准正态分布)
f(t)
υ=5
0.3
υ=1
0.2
0.1
-5
-4
-3
-2
-1
0
1
2
3
4
5
图5-3 不同自由度下的t分布图
t分布
统计学家将t分布曲线下的尾部面积(即概率 P)与横轴t值间的关系编制了不同自由度 下的t 界值表(附表2)。 t界值表:横标目为自由度 ,纵标目为概率P。 t临界值:表中数字表示当 和P 确定时,对应的 值。 单侧概率 (one-tailed probability):用t,υ表示 双侧概率 (two-tailed probability):用t/2,υ表示
2. 区间估计:按预先给定的概率(1-α)估计总体参数的
可能范围,该范围就称为总体参数的1-α置信区间
(confidence interval, CI)。
预先给定的概率(1-α)称为置信度,常取95%或99%。如无 特别说明,一般取双侧95%。
可信区间由两个数值即置信限构成,其中最小值 称为下限,最大值称为上限。严格讲,可信区间不包 括上下限两个端点值。
0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 x MIDPOINT
讲课提纲
• 抽样分布和抽样误差 • t分布 • 总体均数和概率的估计
第一节 抽样分布与抽样误差
用样本信息来推断相应总体的特征,这一过程称为 统计推断。 统计推断包括两方面的内容:参数估计和假设检验 抽样误差:由个体变异产生的、由于抽样而造成的
样本统计量与样本统计量及样本统计量与总体参数之
间的差异称为抽样误差。无倾向性,不可避免。
t 分布
一、t分布的概念
在统计应用中,可以把任何一个均数为µ ,标准差为
σ的正态分布N(µ,σ2)转变为µ =0,σ=1的标准正态分布,
即将正态变量值X用
Z X 来代替。
也服从正态分布, 服从标准正态分布N(0,1) 服从ν=n-1的t分布
二、t 分布的图形和t分布表
t分布曲线特点: 1) t分布曲线是单峰分布,它以0为中心,左 右对称。 2)t分布的形状与样本例数n有关。自由度越小,
n=5 PERCENT 30 PERCENT 30源自n=10N=5N=10
0
0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 0 4 0 4 0 4 04 04 0 4 05 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 0 4 1 5 2 6 37 48 5 9 60 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 mm MIDPOINT mm MIDPOINT
P 1
n
表示
π :总体率,n:样本例数。
当π未知时,
公式为:
P1 P SP n :率的标准误的估计值,p:样本率。
例5-2 某市随机调查了50岁以上的中老年 妇女776人,其中患有骨质疏松症者322人,患病率 为41.5%,试计算该样本频率的抽样误差。
第二节
n=30 PERCENT 30
n=50 PERCENT 30
N=30
N=50
0
0
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 0 4 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 0 6 1 mm MIDPOINT 40 .. 72 40 .. 83 40 50 0 0 0 0 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 05 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0