第5章抽样与抽样估计
同时,由于n/N=30/2500=0.012<=0.05,因此样本 标准差为
又由于n·p=300.6=18, n(1-p)=30 0.4=12 因此,样本比例服从如下正态分布:
p ~ N (0.6, 0.089 2 )
四、点估计量的性质:估计量优劣的衡量 用样本统计量(sample statistics)可以作为其对 应的总体的点估计量(point estimator)。 但要估计总体的某一指标,并非只能用一个样本 指标,而可能有多个指标可供选择,即对同一总体 参数,可能会有不同的估计量。
由于样本标准差与总体标准差及样本容量有关:
x n 因此,样本容量增大,样本均值标准差变小,从而 使样本分布峰度变高,于是在相同区间内,概率分 布线下的面积变大,提高了样本均值落在该区间的 可能性。
▼注意:
1、所有可能的样本均值的平均数等于总体均值, 而与样本容量无关。
2、点估计往往是在总体方差已知的情况下进行 的。
样本均值的标准差可用来测度样本均值与总 体均值的“距离”,即可用来计算可能的误差, 它也被称为均值标准误(standard error of the mean)。
3、样本均值抽样分布的实际应用
样本统计量的估计值与其所要测度的总体参数值之间的 绝对差距,被称为抽样误差(sampling error)。
400个 样本
支持人数: 160
推断
支持该候选人的选民 占全部选民的比例:
160/400=40%
抽样估计方法主要用在下列两种情况:
1、对所考查的总体不可能进行全部测度; 2、从理论上说可以对所考查的总体进行全部测 度,但实践上由于人力、财力、时间等方面的原因, 无法(不划算)进行全部测度。
注意: ●抽样估计只得到对总体特征的近似测度,因此, 抽样估计还必须同时考察所得结果的“可能范围” 与“可靠程度”。
根据中心极限定理有:当样本容量增大时 (大样本),样本比例抽样分布趋向于以样本 期望值为中心、以样本方差为方差的正态分布。
经验上,当下面两个条件满足时,与p相关的样本 为大样本:
n·p>=5
n(1-p)>=5
在例3中,由于全体中层干部接受过培训的人数比 例为P=0.6,因此样本比例期望值为p=0.6;
二、点估计(Point Estimation)
在例3中,假如随机抽取了一个容量为30的样本:
Annual Salary Management Training Program?
49094.3
Yes
53263.9
Yes
49643.5
Yes
…
…
假如根据该样本求得的年薪样本平均数、标准差及参 加过培训计划人数的比例分别为:
在总体单位数为N的总体中抽取容量为n的样本, 样本个数可能有:
1、考虑顺序的不重复抽样:N(N-1)(N-2)…(N-n+1)
2、考虑顺序的重复抽样:Nn
3、不考虑顺序的不重复抽样:CNn
N! n!(N
n)!
4、不考虑顺序的重复抽样:
Cn N n1
在社会经济统计中,往往采用的是较大总体 (视为无限总体)下的无序不重复抽样。
参数是总体的数值特征 A parameter is a numerical characteristic of a population。
如:例3中的中层干部平均年薪,年薪标准差及受培训人数 所占比例均为该公司中层干部这一总体的参数。
●抽样估计就是要通过样本而非总体来估计总体参数。
一、简单随机抽样(Simple Random Sampling)
(ˆ )
(二)抽样平均误差:
所有可能样本估计值与相应总体参数的平均差 异程度:
(三)抽样极限误差 一定概率下抽样误差的可能范围(也称允许误 差):
▼注意: 1、统计学上往往用抽样极限误差来测度抽
样误差的大小或者说测度点估计的精度。 原因:总体参数值往往并不知道,因此,
实际抽样误差与抽样平均误差也往往无法求出, 但在抽样分布大体知道的情况下,抽样极限误 差是可以估计出来的。
抽样分布能够用来提供抽样误差大小的可能性(概率)。
在例3中,如果人事部经理认为 在一次抽样中所得到的中层干部的 平均年薪与总体均值(51800$)误 差在500元以内,他就可以接受样本 估计值。则问题归结为在一次抽样 中,误差在500元以内的可能性(概 率)有多大?
x
由于样本容量为30,可认为样本均值服从正态分布,因 此,上述问题即为求一次抽样的样本均值点落在区间 [51300, 52300]内的概率,即求下图中阴影部分的面积。
该例中:52300对应的标准正态分布中的点为:
(52300-51800)/730.3=0.68
查标准正态分布表:上述区间的面积为
0.2518+0.2518=0.5036
表明:在上述简 单随机抽样中,只 有50%的概率使得 样本均值与总体实 际均值的误差不超 过500元。
4、样本容量与样本均值分布的关系
作为一个好的点估计量,统计量必须具有如下性质: 无偏性、有效性、一致性
1、无偏性(Unbiasedness):样本估计量的 均值等于被估总体参数的真值;
2、有效性(Efficiency):好的点估计量应具有较小 的方差;
3、一致性(Consistency):当样本容量增大时, 估计量依概率收敛于总体参数的真值。
正是抽样分布及其特征使得用样本统计量估计 总体参数的“精确程度”能够给予概率上的描述。
可靠度
精确度
(一)样本平均数的抽样分布 (Sampling Distribution of x )
1、样本均值抽样分布的形状
考察样本均值的概率分布形式。分两种况: 1)总体分布已知且为正态分布; 2)总体分布未知;
同样地,如果多次抽样,则可得到多个不同的结果。 表4.1是一个假设的经过500次抽样后的布,
0.3 相 对 0.2 频 数
0.1
图4.1 500个 x 的相对频数分布
这里, x 的相对频数分布,就称为 x 的抽样分布。
一般地,样本统计量的可能取值及其取值概率所 形成的概率分布,统计上称为抽样分布(sampling distribution)。
样本均值(标准差/比例)称为总体均值(标准差 /比例)的点估计量(point estimator);
样本均值(标准差/比例)的具体数值称为总体均 值(标准差/比例)的点估计值(point estimate)。
由于点估计量是由样本测算的,因此也称为样本 统计量。
三、抽样分布
在上述某公司30个中层干部的简单随机抽样中,如果再 一次抽样的样本与前一次的不同,则可得到另外的平均年 薪样本均值、标准差以及受训干部的比例。
简单随机抽样可根据总体的有限性或无限性分为 有限总体随机抽样与无限总体随机抽样。
有限总体简单随机抽样: 每个样本点(个体)能以相同的概率被抽出。
无限总体简单随机抽样: 1、每一个体来自同一总体; 2、每一个体是独立抽取的。
注意: 在有限总体的简单随机抽样中,由抽样是否具有可重
复性,又可分为重复抽样与不重复抽样。而且,根据抽样 中是否排序,所能抽到的样本个数往往不同。
(二)样本比例的抽样分布(Sampling Distribution of p)
在经济与商务的许多场合,需要用样本比例p对 总体比例P进行统计推断。
样本比例的抽样分布是样本比例所有可能值的 概率分布。
The sampling distribution of p is the probability distribution of all possible values of the sample proportion p.
因此统计上常称容量在30(含30)以上的样本 为大样本(large-sample-size)。
I Population Distribution
x
Sampling distribution
of x x
(n=2)
Sampling
distribxution
of
x
(n=5)
Sampling
distribxution
(1)当总体分布已知且为正态分布或接近正态 分布时,则无论样本容量大小如何,样本均值 都为正态分布。
(2)当总体分布未知时,需要用到中心极限定 理(Central limit Theorem)
对容量为n 的简单随机样本,样本均值的分布 随样本容量的增大而趋于正态分布。
经验上验证,当样本容量等于或大于30时,无 论总体的分布如何,样本均值的分布则非常接近正 态分布。
例1 一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。
120个 样本
测试
平均里程: 36,500公里
新轮胎 推断 平均寿命:
36,500公里
例2:某党派想支持某一候选人参选美国某州议员,为了决定 是否支持该候选人,该党派领导需要估计支持该候选人的民众 占全部登记投票人总数的比例。由于时间及财力的限制:
x xi / n 1554420/ 30 51814.00
s (xi x)2 /(n 1) 325009260/ 29 3347.72
p 19 / 30 0.63
则可用上述结果分别代表2500名中层干部的平 均年薪、年薪的标准差及受训比例。
上述估计总体参数的过程被称为点估计(point estimation);
可以证明: 样本均值、样本比例、样本标准差: 无偏、有效、一致
注:样本二阶中心矩:不具有无偏性
第二节 抽样误差与区间估计
一、抽样误差(Sampling Error) 一个样本可以得到总体参数的一个点估计,该 点估计值与总体参数真值之间的差异,即为抽样误 差。有三个相互联系的概念: (一)实际抽样误差: