当前位置:文档之家› 抽样推断

抽样推断

第八章抽样推断【学习目标】通过本章的教学使学生了解抽样推断的概念及特点、作用;了解统计误差产生的原因;理解抽样误差的概念;熟念掌握在不同的抽样组织方式下抽样平均误差的计算方法;学会利用样本数据对总体参数进行点估计和区间估计;掌握必要抽样数目的确定方法。

为将来走上工作岗位进行抽样调查和推断打下基础。

【教学重点和难点】重点:区间估计难点:抽样平均误差的计算【案例导入】某省政府部门欲了解全省农民收入的平均水平。

该省幅员辽阔,人口众多,如果采用普查则工作量及调查费用将异常庞大。

一个可行的方法是在全省抽取部分农户进行调查,根据这部分调查所得收入数据资料去推断全省农民收入的平均水平。

某地为加强环境保护,加强水质监测,考察河水中某种污染物质是否超标。

显然对河水全部检验是不可能的,只能从河水中按照一定地点定时取样检验,根据检验结果推断河水中污染物是否超标。

某水泥厂加强产品质量控制和管理,需考察水泥标号是否达到规定标准,其方法是将水泥做成试块进行耐压试验。

由于这种试验是一种破坏性试验,显然不能把全部水泥都做成试块,只能从全部水泥中抽取部分进行试验。

从上面例子可以看出,在很多统计问题中,或者由于人力、物力、财力或时间限制,或者由于取得全部数据是不可能的,或者虽然能够取得全面数据但数据收集本身带有破坏性,我们不能收集全面数据,只能从中收集部分数据,依据这部分数据对所研究对象的数量特征或数量规律性进行推断。

这种依据部分观测取得的数据对整体的数量特征或数量规律性进行的推断称为统计推断。

第一节抽样推断中的基本概念一、抽样推断及其特点(一)抽样推断按照随机原则从总体中抽取部分单位进行观察,利用样本中的实际资料计算样本指标,并据以计算总体相应数量特征的一种统计分析方法。

包括统计调查,即对个体单位进行观察与搜集资料的方法,还包括统计分析,即对总体进行统计估计和分析的方法。

【案例8﹣1】某企业生产的5000个零件中,按照10%的比例,抽取500件进行检查,发现25件是废品,则废品率为(25/500)×100%=5%,采用抽样调查的结果,废品率是5%,来推算5000个零件的废品率,该方法即是抽样推断,抽取的500个零件就是样本。

(二)抽样推断的特点1. 按照随机原则抽取样本:总体中的各个单位是否入选样本,不受主观因素影响,保证总体中的每一单位都有相同的中选机会,剔除了人为主观因素,提高样本代表性。

2. 由样本数据推断总体特征:通过逻辑上的归纳推算实现了从特殊到一般,从部分到总体的认识,由获得的样本的实际数据,计算样本指标,推算总体指标。

3. 抽样误差可以估计:样本指标推断总体指标存在误差,这种误差可以事先估计,并能够控制这个误差范围。

抽样推断根据事先给定的误差允许范围设计,具有一定概率保证的估计和判断。

(三)抽样推断的作用1. 对不可能进行全面调查的又要了解的全面情况,用抽样方法,例如:灯泡寿命检查、人体验血、子弹质量检查等。

2. 不必要进行全面调查的对象,用抽样方法。

例如:全国大学生的心理状况调查、全国城乡居民收入调查等。

3. 应用抽样法可以对全面调查的结果加以补充或修正,例如:对普查的结果进行登记质量的抽样调查,修正结果等。

4. 用于生产过程中产品质量的检查与控制,例如:质量控制时一旦发现异常情况,可以及时采取措施,防止废品大量产生。

二、抽样推断中的基本概念(一)总体和样本 1. 总体总体——亦称全及总体,指所要认识的研究对象全体,它是由所研究范围内具有某种共同属性的全体单位所组成的集合体。

通常用N 表示,N 是很大的数。

2. 样本样本——又称子样,也称样本总体,它是全及总体中随机抽取出来的,作为代表这一总体的那部分单位组成的集合体。

样本中所包含的单位数称为样本容量,通常用n 表示,相对于N 来讲n 是很小的数(样本容量小于30的称为小样本,反之,则称为大样本)。

总体和样本,一个是整体,一个是部分,全及总体是我们的研究内容的对象,因此它是唯一的,确定的;而样本则是建立在随机基础上抽取出来的,所以每一次选样,都会选出不同的结果,所以它是变动的,不确定的。

(二)总体参数和统计量1. 总体参数——根据总体各单位的标志值或标志属性计算出来的(总体指标) 对于总体中的数量标志,常用的总体参数有总体标准差δ(或总体方差δ2)和总体平均数X ,其计算公式如下:δ=NX X ∑-2)(=∑∑-FFX X 2)(X =NX ∑=ΣXF /ΣF对于总体中的质量标志,常用的总体参数有总体成数和总体成数标准差(方差)来表示,总体成数某种性质的单位数在总体全部单位数中所占的比重。

即 p=(n1/n),则总体中不具有某种性质的 单位数在总体中所占的比重为:q=1-p如果品质标志有是非两种标志,将是定义为“1”;非定义为“0”。

成数的标准差的计算公式为:)1(P P -=δ2. 样本统计量——根据样本各单位标志值或标志属性计算出来的(样本指标),也称样本统计量样本统计量有:样本平均数x ,样本标准差,样本成数p ,样本成数标准差。

样本统计量是用来估计总体参数的,内容和计算方式是与总体参数一致的,但本质不同,总体参数是直接总体的实际数据是唯一的,确定的,固定的。

而统计量则是随着抽样的变化,样本的变化,其指标值也是处于不断的变化之中的。

(三)抽样误差的概念1. 统计误差统计工作的调查结果与实际情况的差别,抽样过程中,通常会产生两类误差:登记性误差与代表性误差。

2. 登记性误差在调查过程中,由于测量、登记、计算上的差错引起的误差,这类误差可以避免。

3. 代表性误差因样本的代表性不足所引起的误差,具备两种情况:(1)抽样过程中,没有按照随机原则取样,存在人为的主观因素,破坏了随机原则所造成的误差,称为系统性误差,可以避免。

(2)抽样过程中严格按照随机原则取样,由于样本指标代替总体指标所引起的误差,无法避免,是按照随机原则产生的,成为随机误差。

通常抽样误差就是随机误差。

抽样误差由于随机抽样的偶然因素所引起的,样本指标与总体指标之间的绝对离差即:平均指标的抽样误差为:x-X成数指标的抽样误差为:p -P第二节抽样组织方式、方法和抽样误差的计算一、抽样的组织方式根据统计研究的目的和研究对象的特点,抽样调查可以采用不同的组织方式,,在统计实践中,抽样调查的组织方式主要有以下四种,实际调查所用的方法通常可以是这四种方法的各种形式的组合。

(一)简单随机抽样简单随机抽样也称为单纯随机抽样。

从包含N个抽样单元的总体中抽取容量为n的简单随机样本,可以是从总体中逐个不放回地抽取n次,每次都是在尚未入样的单元中等概率抽取的,也可以是从总体中一次取得全部n个单元,只要保证全部可能的样本每个被抽到的概率都相等即可。

简单随机抽样是其他抽样方法的基础,因为它在理论上最容易处理,并且当总体包含的抽样单元数N不太大时实施并不困难。

但是当N很大时实施就很困难,主要是编制一个包含全部N个抽样单元的抽样框通常很不容易。

另外当N很大时所抽到的样本单元往往很分散,使调查极不方便。

因此在大规模的抽样调查中很少单独采用简单随机抽样。

(二)类型抽样类型抽样又成为分层抽样,将总体按照某一标志进行分组,在各组中按照随机原则抽取样本单位的组织方式。

通过分类,把总体中标志值比较接近的单位归为一组,使各组单位之间的差异程度缩小,分布比较均匀。

在各组中都要抽取样本单位,这样使样本分布更加接近于总体分布,提高样本的代表性,当总体各个单位差异较大时,采用类型抽样可以大大提高估计的精度。

类型抽样将总体按照某一标志进行分组,各组的单位数一般是不相同的,样本单位数在各组之间的分配一般有两种方法:1. 按照比例抽取样本数目,不考虑各组标志变异程度的大小,按各组的单位数占总体的的比重抽取样本数目。

2. 各组抽取的样本数目,按照各组标志变异程度来确定,变异程度大多抽一点,变异程度小少抽一点。

(三)等距抽样等距抽样又称机械抽样,它先将总体各单位按某一标志排队,然后以相等的间隔抽取样本单位的一种组织方式。

(四)整群抽样整群抽样是将总体各个单位划分为若干群,然后以群为单位从中随机抽取一些群,对选中群所有单位进行全面调查的抽样组织方式,整群抽样采用不重复抽样。

二、抽样方法1. 重复抽样——抽出一个单位,登记结果,又重新放回,参加下一次抽选,抽取的样本可能值为N n2. 不重复抽样——每次抽取一个单位就不再放回参加下一次抽选,其抽取的全部可能的样本个数为p N n三、抽样误差的分类及计算 (一)影响抽样误差的因素1.样本的单位数:其他条件不变的情况下,样本数越多,抽样误差越小,反之,抽样误差越大。

2.总体各单位标志值的差异程度:差异程度越大,抽样误差越大,反之,越小。

3.抽样方法:重复抽样误差大于不重复抽样的抽样误差。

4.抽样调查组织形式:相对而言,类型抽样和等距抽样误差小一些。

(二)抽样平均误差反映抽样误差一般水平的指标,通常用抽样平均数的标准差或抽样成数的标准差来作为衡量误差一般水平的尺度 1. 抽样平均数的平均误差(1)在重复抽样条件下,抽样平均数的平均误差,即:u x=nδ(2) 在不重复条件下,平均误差为:u x =nδ1--N nN 2. 抽样成数的平均误差 (1)重复抽样条件下 u p =n δ=np p )1(-(2)不重复抽样条件下p u =nδ1--N nN ( δ=p(1-p) )3. 重复抽样和不重复抽样条件下抽样平均误差的区别。

从上面的计算公式可看到,在其他条件相同的情况下,重复抽样和不重复抽样仅差一个修正因子的平方根()1(N n -。

由于,11<-nn所以不重复抽样的平均误差小于重复抽样的平均误差的N n -1倍。

Nn又称抽样比例或抽样强度。

(三)抽样极限误差样本指标与总体指标之间可允许的误差最大范围称为极限误差,或者说,是统计量与参数离差的最大范围,即:x ∆= x -X= p -P 可以变形为:x -X x ∆≤⇒x -x ∆≤X ≤x +x ∆p p P p p p P p ∆+≤≤∆-⇒∆≤-公式中,总体平均数和总体成数是未知的,需要我们用样本指标去估计,抽样极限误差的实际意义在于期望总体平均数X 落在(x -x ∆,x +x ∆)范围内,总体成数P 落在(p p ∆-,p p ∆+)范围内。

(三)抽样误差的概率度与置信度 1. 概率度概率度是以抽样平均误差为标准单位来衡量抽样极限误差而的到的相对数。

用极限误差除以平均误差所得到的反映相对误差程度的相对数t ,称为抽样误差的概率度。

即:uxxt ∆=uppt ∆=⨯=∆t x x u p u t p ⨯=∆p ∆t 的含义(概率度):表示误差范围为抽样平均误差的t 倍,t 是测量估计可靠程度的一个参数。

相关主题