当前位置:
文档之家› 与参数估计(Estimate)
与参数估计(Estimate)
总体分布 (population distribution)
1. 总体中各元素的观察值所形成的分布 2. 分布通常是未知的 3. 可以假定它服从某种分布
总体
样本分布 (sample distribution)
1. 2. 3.
一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总 体的分布
解:已知 x=58,σ=10,zα/2=1.96,n=100 σ σx = =10/10=1(千克) n = zα / 2σ =1.96×1=1.96(千克)
x x
置信下限为58-1.96=57.04, 置信上限为58+1.96=59.96 故所求置信区间为(57.04,59.96)千克。
第6章 抽样(Sampling) 章 抽样( ) 与参数估计(Estimate) 与参数估计
重点:深刻理解抽样分布的概念及中心极限定理的意义, 重点:深刻理解抽样分布的概念及中心极限定理的意义,灵活掌握 均值和比例的区间估计方法的应用。 均值和比例的区间估计方法的应用。 难点:在不同条件下的区间估计。 难点:在不同条件下的区间估计 抽样法的特点:随机原则 部分估计总体 存在误差并可以控制 抽样法的应用:对某些不可能进行全面调查而又需要了解其 全面情况的社会经济现象,必须应用抽样法。(破坏性试验、 总体过大、单位过于分散,实际调查不可能的)
样 本
二、抽样分布 (Sampling distribution) 1、抽样分布的意义 、 对统计量的所有可能取值及其对应概率的描述, 就是统计量的抽样分布,即抽样分布 抽样分布。 抽样分布 抽样分布反映样本统计量的分布特征,根据抽 样分布的规律,可揭示样本统计量与总体参数 之间的关系,计算抽样误差,并说明抽样推断 的可靠程度。
x
825 875 925 975 1025 1075 ——
xf
30525 112875 171125 99450 41000 7525 462500
(x x)2 f
370000 322500 0 255000 400000 157500 1475000
解:
Σxf x= = 462500 / 500 = 925 小 ) ( 时 Σf
第1节 抽样与抽样分布 节
一、有关抽样的基本概念
总体(母体)(Population) 总体(母体) 样本(子样) 样本(子样)(Sample) 总体指标(总体参数 总体参数)(Population parameter) 总体指标 总体参数 样本指标(样本统计量 样本统计量)(Sample statistic) 样本指标 样本统计量
抽样方法
重置抽样(重复抽样)(Sampling with replacement) 重置抽样 要从总体N个单位中随机抽取一个容量为n的样本, 每次从总体中抽取一个单位,把顺序号登记下来之后, 重新放回参加下一次抽选,连续反复抽取n次组成所 要求容量的样本。 不重置抽样(不重复抽样)(Sampling without (Sampling 不重置抽样 replacement) 要从总体N个单位中随机抽取一个容量为n的样本, 每 次从总体中抽取一个单位,被抽中的单位不再放 回参加下一次抽选,连续进行次便组成样本。 不重复抽样所得样本对总体的代表性较大,抽样误差 较小,所以实践中通常采用不重复抽样。
计算出各样本的均值,如下表。并给出样本均值的抽 样分布
第一 个 观察 值 1 2 3 4
16个样本的均值(x) 个样本的均值( ) 个样本的均值 第二个观察值 1 1.0 1.5 2.0 2.5 2 1.5 2.0 2.5 3.0 3 2.0 2.5 3.0 3.5 4 2.5 3.0 3.5 4.0
X = 2.5 2 σ X = 0.625
2、样本均值的抽样分布 、
样本平均数的标准差反映了样本平均数与总体平均数的平 均误差,故称之为抽样平均误差 抽样平均误差(或抽样标准差)。计算 抽样平均误差 公式: σ = σ (重复抽样)
σx =
n σ2 N n ( )= n N 1
x
σ2
n σ ( 1 )= n N n
f p= = 37 / 500 = 7.4% Σf
s=
Σ(x x)2 f = 1475000 /(500 1 = 54.( 时 ) 3小 ) Σf 1
sp =
σx =
p(1 p) = 26%
σ
≈ 54.3/ 500 = 2.4(小 ) 时
重复抽样条件下
n
不重复抽样条件下
P(1 P) n σp = (1 ) ≈ n N = 1.14% 0.074(1 0.074) 500 (1 ) 500 10000
式中,P为总体比例,实际计算时通常采用以往经验数据或 样本比例 。
例:灯泡厂从10000只灯泡中随机抽取500只检查其耐用时数, 结果如下表。该厂规定耐用时数在850以下为不合格。求平 均耐用时数及不合格率的抽样平均误差。 耐用时数 800-850 850-900 900-950 950-1000 1000-1050 1050-1100 合计 灯泡数 37 129 185 102 40 7 500
.3 .2 .1 0 1 2 3 4
均值和方差
=
∑x
i=1
N
i
N
N i=1
= 2.5
σ =
2
(xi )2 ∑ N
= 1.25
现从总体中抽取n=2的简单随机样本,在重复抽样 条件下,共有42=16个样本。所有样本的结果为
所有可能的n 的样本( 所有可能的 = 2 的样本(共16个) 个 第一个 观察值 1 2 3 4 第二个观察值 1 1,1 2,1 3,1 4,1 2 1,2 2,2 3,2 4,2 3 1,3 2,3 3,3 4,3 4 1,4 2,4 3,4 4,4
n ( 1 ) N
可见,抽样平均误差与总体标准差成正比变化,与样本容 量的平方根成反比变化。 当总体为正态分布时,对于任何样本容量,样本平均数的 抽样分布是正态分布。若总体方差σ2未知,则可用样本方 差s2取而代之 。 样本容量很大,无论总体分布如何,样本平均数近似服从 正态分布。
3、样本比例的抽样分布 、
.3 .2 .1 0
P (X )
1.0 1.5 2.0 2.5 3.0 3.5 4.0
样本均值的抽样分布
X
样本均值的Leabharlann 布与总体分布的比较总体分布
.3 P(X)
抽样分布
.3 .2 .1 0 1 2 3 4
.2 .1 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
= 2.5
σ2 =1.25
第2节 参数估计的基本方法 节
参数估计——以实际观察的样本数据所计算的统计量作为未 知总体参数的估计值。 一、点估计 点估计(Point estimate) 点估计 点估计也称定值估计,就是直接以样本统计量作为总体参数 的估计值。 点估计的优点是它提供了总体参数的具体估计值,可作为决 策的依据,其缺点是不能提供有关抽样误差的信息。 样本均值是总体均值的点估计量,样本方差s2是总体方差σ2 的点估计量,样本比例p是总体比例P的点估计量。 优良估计量的标准: 无偏性 有效性 一致性
P zα {
x < < zα } =1α 2 σ/ n
即
σ P x < zα / 2 = 1α n
x = zα / 2
可见,极限误差的计算公式为 则总体均值的置信区间为
σ
n
= zα / 2σ x
(x x , x + x )
例:从某大学学生中随机抽取100名调查体重情况。经称量和计 算,得到平均体重为58千克。根据过去的资料知道大学生体重 的标准差是10千克。在95%的置信水平下,求该大学学生平均体 重的置信区间。
第3节 总体均值的区间估计 节
一、区间估计的基本原理 1、大数定律 大数定律主要是说明:当n足够大时,独立同分布的随机变 量的算术平均数趋近于数学期望;事件发生的频率接近于其 发生的概率。 即样本统计量接近于总体参数。 2、中心极限定理 中心极限定理是说明:当n充分大时,大量的起微小作用的 相互独立的随机变量之和趋于正态分布。
样本平均数的抽样极限误差
x X = x
x + x ≥ X ≥ x x
样本比例的抽样极限误差
p P = p p p ≤ P ≤ p + p
抽样误差与抽样可靠性的关系
P θ θ ≤ θ
{
}= 1α
影响抽样误差的主要因素
1、抽样单位数 抽样单位数的多少。在其它条件不变的情况下,抽样 抽样单位数 单位数愈多,抽样误差愈小;反之抽样单位数愈少,抽样 误差就愈大。 2、总体离散程度 总体离散程度的高低。当其它条件不变时,总体离散 总体离散程度 程度愈低,抽样误差愈小;反之总体离散程度愈高,抽样 误差愈大。 3、抽样方法 4、组织方式
抽样分布 (sampling distribution)
总体
样 本
计算样本统计 量 例如:样本均 值、比例、方 差
例:样本均值的抽样分布
【例】设一个总体,含有4个元素(个体) ,即总体单位 设一个总体,含有4个元素(个体) 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总 个个体分别为x 体的均值、 体的均值、方差及分布如下 总体分布
当从总体中抽出一个容量为n的样本时,样本比例服从二项 分布。 当n→∞时,二项分布趋近于正态分布。所以,在大样本下, 若np≥5且n(1-p) ≥5,样本比例p近似服从正态分布。 比例的抽样平均误差 (重复抽样) P( P) 1
σp =
n P(1 P) n (1 ) n N
σp =
P(1 P) N n ( )= n N 1
概率抽样的组织方式
简单随机抽样:从总体中抽取样本最常用的方法。 : 从容量为N的总体中进行抽样,如果容量为n 的每 个可能样本被抽到的可能性相等,则称容量为n的 样本为简单随机样本。 分层抽样:也称分类抽样或类型抽样,它是按某个 主要标志对总体各单位进行分类,然后从各层中按 随机原则分别抽取一定数目的单位构成样本。 等距抽样也称机械抽样或系统抽样。它是先将总体 单位按一定顺序排队,计算出抽样间隔(或抽样距 离),然后按固定的顺序和间隔抽取样本单位。 整群抽样:也称丛聚抽样或集团抽样。它是将总体 分为若干部分(每一部分称为一个群),然后按随机 原则从中一群一群地抽选,对抽中群内的所有单位 进行全面调查。