当前位置：文档之家› 第5章抽样与抽样估计

第5章抽样与抽样估计

同时，由于n/N=30/2500=0.012<=0.05，因此样本标准差为
又由于n·p=300.6=18， n(1-p)=30 0.4=12 因此，样本比例服从如下正态分布：
p ~ N (0.6, 0.089 2 )
四、点估计量的性质：估计量优劣的衡量用样本统计量（sample statistics）可以作为其对应的总体的点估计量（point estimator)。但要估计总体的某一指标，并非只能用一个样本指标，而可能有多个指标可供选择，即对同一总体参数，可能会有不同的估计量。
由于样本标准差与总体标准差及样本容量有关：
x n 因此，样本容量增大，样本均值标准差变小，从而使样本分布峰度变高，于是在相同区间内，概率分布线下的面积变大，提高了样本均值落在该区间的可能性。
▼注意：
1、所有可能的样本均值的平均数等于总体均值，而与样本容量无关。
2、点估计往往是在总体方差已知的情况下进行的。
样本均值的标准差可用来测度样本均值与总体均值的“距离”，即可用来计算可能的误差，它也被称为均值标准误（standard error of the mean）。
3、样本均值抽样分布的实际应用
样本统计量的估计值与其所要测度的总体参数值之间的绝对差距，被称为抽样误差（sampling error）。
400个样本
支持人数： 160
推断
支持该候选人的选民占全部选民的比例：
160/400=40%
抽样估计方法主要用在下列两种情况：
1、对所考查的总体不可能进行全部测度； 2、从理论上说可以对所考查的总体进行全部测度，但实践上由于人力、财力、时间等方面的原因，无法（不划算）进行全部测度。
注意： ●抽样估计只得到对总体特征的近似测度，因此，抽样估计还必须同时考察所得结果的“可能范围” 与“可靠程度”。
根据中心极限定理有：当样本容量增大时（大样本），样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布。
经验上，当下面两个条件满足时，与p相关的样本为大样本：
n·p>=5
n(1-p)>=5
在例3中，由于全体中层干部接受过培训的人数比例为P=0.6，因此样本比例期望值为p=0.6；
二、点估计（Point Estimation）
在例3中，假如随机抽取了一个容量为30的样本：
Annual Salary Management Training Program?
49094.3
Yes
53263.9
Yes
49643.5
Yes
…
…
假如根据该样本求得的年薪样本平均数、标准差及参加过培训计划人数的比例分别为：
在总体单位数为N的总体中抽取容量为n的样本，样本个数可能有：
1、考虑顺序的不重复抽样：N(N-1)(N-2)…(N-n+1)
2、考虑顺序的重复抽样：Nn
3、不考虑顺序的不重复抽样：CNn
N! n!(N
n)!
4、不考虑顺序的重复抽样：
Cn N n1
在社会经济统计中，往往采用的是较大总体（视为无限总体）下的无序不重复抽样。
参数是总体的数值特征 A parameter is a numerical characteristic of a population。
如：例3中的中层干部平均年薪，年薪标准差及受培训人数所占比例均为该公司中层干部这一总体的参数。
●抽样估计就是要通过样本而非总体来估计总体参数。
一、简单随机抽样（Simple Random Sampling）
(ˆ )
（二）抽样平均误差：
所有可能样本估计值与相应总体参数的平均差异程度：
（三)抽样极限误差一定概率下抽样误差的可能范围（也称允许误差）：
▼注意： 1、统计学上往往用抽样极限误差来测度抽
样误差的大小或者说测度点估计的精度。原因：总体参数值往往并不知道，因此，
实际抽样误差与抽样平均误差也往往无法求出，但在抽样分布大体知道的情况下，抽样极限误差是可以估计出来的。
抽样分布能够用来提供抽样误差大小的可能性（概率）。
在例3中，如果人事部经理认为在一次抽样中所得到的中层干部的平均年薪与总体均值（51800$）误差在500元以内，他就可以接受样本估计值。则问题归结为在一次抽样中，误差在500元以内的可能性（概率）有多大？
x
由于样本容量为30，可认为样本均值服从正态分布，因此，上述问题即为求一次抽样的样本均值点落在区间 [51300， 52300]内的概率，即求下图中阴影部分的面积。
该例中：52300对应的标准正态分布中的点为：
（52300-51800)/730.3=0.68
查标准正态分布表：上述区间的面积为
0.2518+0.2518=0.5036
表明：在上述简单随机抽样中，只有50%的概率使得样本均值与总体实际均值的误差不超过500元。
4、样本容量与样本均值分布的关系
作为一个好的点估计量，统计量必须具有如下性质：无偏性、有效性、一致性
1、无偏性（Unbiasedness)：样本估计量的均值等于被估总体参数的真值；
2、有效性(Efficiency):好的点估计量应具有较小的方差；
3、一致性(Consistency):当样本容量增大时，估计量依概率收敛于总体参数的真值。
正是抽样分布及其特征使得用样本统计量估计总体参数的“精确程度”能够给予概率上的描述。
可靠度
精确度
（一）样本平均数的抽样分布（Sampling Distribution of x )
1、样本均值抽样分布的形状
考察样本均值的概率分布形式。分两种况： 1)总体分布已知且为正态分布； 2)总体分布未知；
同样地，如果多次抽样，则可得到多个不同的结果。表4.1是一个假设的经过500次抽样后的布，
0.3 相对 0.2 频数
0.1
图4.1 500个 x 的相对频数分布
这里， x 的相对频数分布，就称为 x 的抽样分布。
一般地，样本统计量的可能取值及其取值概率所形成的概率分布，统计上称为抽样分布（sampling distribution)。
样本均值（标准差/比例）称为总体均值（标准差 /比例）的点估计量（point estimator）；
样本均值（标准差/比例）的具体数值称为总体均值（标准差/比例）的点估计值（point estimate）。
由于点估计量是由样本测算的，因此也称为样本统计量。
三、抽样分布
在上述某公司30个中层干部的简单随机抽样中，如果再一次抽样的样本与前一次的不同，则可得到另外的平均年薪样本均值、标准差以及受训干部的比例。
简单随机抽样可根据总体的有限性或无限性分为有限总体随机抽样与无限总体随机抽样。
有限总体简单随机抽样：每个样本点（个体）能以相同的概率被抽出。
无限总体简单随机抽样： 1、每一个体来自同一总体； 2、每一个体是独立抽取的。
注意：在有限总体的简单随机抽样中，由抽样是否具有可重
复性，又可分为重复抽样与不重复抽样。而且，根据抽样中是否排序，所能抽到的样本个数往往不同。
(二)样本比例的抽样分布(Sampling Distribution of p)
在经济与商务的许多场合，需要用样本比例p对总体比例P进行统计推断。
样本比例的抽样分布是样本比例所有可能值的概率分布。
The sampling distribution of p is the probability distribution of all possible values of the sample proportion p.
因此统计上常称容量在30（含30）以上的样本为大样本（large-sample-size)。
I Population Distribution
x
Sampling distribution
of x x
(n=2)
Sampling
distribxution
of
x
(n=5)
Sampling
distribxution
（1）当总体分布已知且为正态分布或接近正态分布时，则无论样本容量大小如何，样本均值都为正态分布。
（2）当总体分布未知时，需要用到中心极限定理（Central limit Theorem）
对容量为n 的简单随机样本，样本均值的分布随样本容量的增大而趋于正态分布。
经验上验证，当样本容量等于或大于30时，无论总体的分布如何，样本均值的分布则非常接近正态分布。
例1 一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。
120个样本
测试
平均里程： 36,500公里
新轮胎推断平均寿命:
36,500公里
例2：某党派想支持某一候选人参选美国某州议员，为了决定是否支持该候选人，该党派领导需要估计支持该候选人的民众占全部登记投票人总数的比例。由于时间及财力的限制：
x xi / n 1554420/ 30 51814.00
s (xi x)2 /(n 1) 325009260/ 29 3347.72
p 19 / 30 0.63
则可用上述结果分别代表2500名中层干部的平均年薪、年薪的标准差及受训比例。
上述估计总体参数的过程被称为点估计（point estimation）；
可以证明：样本均值、样本比例、样本标准差：无偏、有效、一致
注：样本二阶中心矩：不具有无偏性
第二节抽样误差与区间估计
一、抽样误差（Sampling Error）一个样本可以得到总体参数的一个点估计，该点估计值与总体参数真值之间的差异，即为抽样误差。有三个相互联系的概念：（一）实际抽样误差：

e商务文档

第5章抽样与抽样估计

相关文档推荐：