第八章 参数估计
1500 1520 1510 1470
解:根据样本数据,计算样本均值=1490 h,样本方差S=24.77 h 根据α =0.05查t分布表得(n-1)=t0.025 (15)=2.131 于是,平均使用寿命的置信区间为:
x tα 2 S 24.77 1490 2.131 n 16 1490 13.2 1476.8, 1503.2
第八章
参数估计
本章内容
第一节 参数估计的一般问题
第二节
第三节
单总体参数的区间估计
样本容量的确定
第一节
参数估计的一般问题
参数估计在统计方法中的地位
统计方法
描述统计 推断统计 参数估计 假设检验
一、抽样推断 (一)抽样推断的概念:按照随机性原则,从研究对象中 抽取一部分进行观察,并根据所得到的观察数据,对研究 对象的数量特征做出具有一定可靠程度的估计和推断,以 达到认识总体的一种统计方法。 (二)抽样推断的特点: 1.样本资料对总体的数量特征作出具有一定可靠性。 2.按照随机性原则从全部总体中抽取样本单位。 3.抽样推断必然会产生抽样误差。
三、总体方差的区间估计
总体方差在(1-α )置信水平下的置信区间为:
n 1 S σ 2 n 1 S 2 2 χ α 2 n 1 χ 1α 2 n 1
2 2
例4:一家食品生产企业以生产袋装食品为主,现从某天生产的一批食 品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布 服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间。 表8-7 25袋食品重量
25 1 93.21 2 25 1 93.21
39.3641 12.4011
即:总体方差的置信区间为(56.83,180.39)。
相应地,企业生产的食品总体重量标准差的的置信区间为7.54g~ 13.43 g。
第三节
样本容量的确定
一、估计总体均值时样本容量的确定
x μ t ~ t(n 1) S n
t 分布是类似正态分布的一种对称分布,它通常要比正 态分布平坦和分散。一个特定的分布依赖于称之为自由度的 参数。随着自由度的增大,分布也逐渐趋于正态分布,如图 8-7和图8-8所示:
图8-7
t分布与标准正态分布的比较 图8-8 不同自由度的t分布
• 总体均值 在1-置信水平下的置信区间为:
表8-3
置信水平 90 95 99 α 0.1 0.05 0.01
常用置信水平的值
α/2 0.05 0.025 0.005 Zα/2 1.645 1.96 2.58
点估计值
图8-3 重复构造出置信水平95%,的20个置信区间
三、评估估计量的标准
无偏性:估计量抽样分布的数学期望等于被估计的总体 参数。
5
二、参数估计的一般问题 (一)参数估计(parameter estimation)就是用样本统 计量去估计总体的参数。
1. 估计量:用于估计总体参数的随机变量 • 如样本均值、样本比率、样本方差等 • 样本均值就是总体均值的一个估计量 2. 参数用表示,估计量用 ˆ 表示 3. 估计值:估计参数时计算出来的统计量的具体值 • 如果样本均值 x =5600,则5600就是总体均值 的估计值
解: 已知总体服从正态分布, 且标准差为σ =10, n=25, 置信水平为 1-α =95%,查标准正态分布表得:
Z 2
=1.96
根据样本计算均值,得 x =105.36 g 于是有:
x Zα 2 σ 10 105.36 1.96 n 25 105.36 3.92 101.44,109 .28
S n
S n
非正态分布 大样本(n≥30) 的区间估计 1. 样本比例经标准化后的随机变量则服从正态分布,即:
Z p π π(1 π) n ~ N(0,1)
2. 总体比例在1-置信水平下的置信区间为:
p z α 2 p(1- p) n
式中,1-α 称为置信水平;
• 5.置信下限为105.36-3.78=101.58,置信上限为105.36+3.78= 109.14,即置信区间为(101.58,109.14)g。
(二)小样本的估计方法 总体方差σ 2未知,而且是在小样本的情况下,则需要用 样本方差S2代替σ 2,这时样本均值经过标准化以后的随机变 量则服从自由度为(n-1)的t分布,即:
一旦确定了置信水平(1-α ),Zα/2的值就确定了,对 于给定的的值和总体标准差σ ,就可以确定任一希望的允许 误差所需要的样本容量。令E代表所希望达到的允许误差, 即:
E zα 2
σ
n
由此可以推到出确定样本容量的公式如下:
n
(z α 2 ) σ
2
2
E2
例5:拥有MBA学位的研究生年薪的标准差大约为4000 元, 假定想要估计年薪95%的置信区间,希望允许误差为10000 元,应抽取多大的样本容量? 解:已知 =4000,E=1000,1-=95%, Zα /2=1.96,所以,应抽取的样本容量为:
表8-2
样本统计量和总体参数符号对应关系
总体参数 均值 比例 方差
符号表示 μ π σ
2
样本统计量
x
p S
2
(二)点估计与区间估计
1.点估计 根据样本统计量直接估计出总体参数θ 的值,称为参 数的点估计。常用的方法有两种:矩估计法和极大似然估 计法。 2.区间估计 在点估计的基础上,给出总体参数估计的一个范围。 图8-1给出了区间估计的示意图:
• 3.计算样本标准差,选择的函数为“统计”下的“STDEV”函数。本例 放在G1,得结果9.6545。
• 4.计算允许误差。选择“统计”下的“CONFIDENCE”函数,在出现的 “函数参数”对话框中,“Alpha”一栏填入显著性水平“0.05”, “Standard_dev”一栏填入总体标准差“G1”(大样本情况下,可用样 本标准差代替),“Size”一栏填入样本容量“25”,然后“确定”,在 输出区域内得允许误差“3.784490”(取近似值3.78)。
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
图8-6 两个无偏点估计量的抽样分布
第二节
单总体参数的区间估计
一、总体均值的区间估计
(一)大样本的估计方法 1.样本均值经过标准化以后的随机变量则服从正态分布,
x μ 即Z ~ N(0, 1) σ n
2.总体均值所在(1-α )置信水平下的置信区间为:
x Z α 2
x Z α 2 σ n
称为置信下限,
σ n
x Z α 2 σ n
称为置信上限。
例1:一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企 业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产 的一批食品中随机抽取了25 袋,测得每袋重量如表8-3所示。已知产品重量 的分布服从正态分布,且总体标准差为10 g。试估计该批产品平均重量的置 信区间,置信水平为95%。 表8-3
即该批食品平均重量95%的置信区间为101.44~109.28 g。
利用Excel来计算置信区间
• 1.将样本数据输入Excel工作表中A1︰E5
• 2.计算样本均值。点击粘贴函数“fx”,选择“统计”下的“AVERAGE”函 数。在出现的“函数参数”对话框中,“Number1”一栏填入样本数据所在 x 区域A1︰E5,然后“确定”,在输出区域内(本例放置在F1)得结果105.36, 此即样本均值。
ˆ P( )
无偏 有偏
A
B
图8-4 有偏和无偏估计量的例子
ˆ
一致性:随着样本容量的增大,估计量的值越来越接 近被估计的总体参数。
ˆ P( )
较大的样本容量
B A
较小的样本容量
图8-5 两个不同容量样本统计量的抽样分布
ˆ
有效性:对同一总体参数的两个无偏点估计量,有更小 标准差的估计量更有效。
由于1- = 95%,查标准正态分布表可知,Zα /2=1.96。 于是
p zα 2
p(1 p) n 60% (1 60%) 100
60% 1.96 60% 9.604%
50.396%, 69.604%
即该城市家庭中,拥有电脑的比例在置信水平95%下的置信区间为: (50.396%,69.604%)。
E zα 2
π(1 π) n
由此可以推导出重复抽样和无限总体抽样条件确定样本容量的公式如 下:
n
(zα 2 ) 2 π(1 π) E2
例6:某社区想通过抽样调查了解居民参加体育活动的比率,如果把 误差范围设定在5%,问如果以95%的置信水平进行参数估计,需要 多大的样本? 解:由于1-α =0.95,α =0.05,Zα /2 =1.96。 因为π 的值不知道,取使π (1-π )达到最大值的0.5, 即π 取0.5,于是: (z α 2 ) 2 π(1 π) n E2 2 (1.96) 0.5 (1 0.5) 0.052 384.16 385 故需取385人的样本。
(1.96)2 40002 n 2 E 10002 61.47 62
即应抽取62人作为样本。
(z α 2 ) 2 σ 2
二、估计总体比例时样本容量的确定
一旦确定了置信水平(1-α ),Zα /2的值就确定了。由于总体比例的 值是固定的,所以允许误差由样本容量来确定,样本容量越大允许误差就 越小。估计的精度就越好。因此,对于给定的的 值,就可以确定任一希 望的允许误差所需要的样本容量。令E代表所希望达到的允许误差,即:
解:根据样本数据计算样本方差:
S2 =93.21; 已知n=25,1-=95% ,查χ 2分布表可得临界值为: