当前位置:文档之家› 统计学 第 6 章 抽样与参数估计

统计学 第 6 章 抽样与参数估计

第6章抽样与参数估计第6章抽样与参数估计6.1抽样与抽样分布6.2参数估计的基本方法6.3总体均值的区间估计6.4总体比例的区间估计6.5样本容量的确定学习目标理解抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法参数估计在统计方法中的地位统计推断的过程6.1抽样与抽样分布什么是抽样推断概率捕样方法抽样分布抽样方法抽样方法概率抽样(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsainplmg)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范闱内随机地抽取一个单位作为初始单位,然后按爭先规定好的规则确定其它样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)一个样本中各观察值的分布也称经验分布当样本容屋n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)抽样分布的概念(samplingdistribution)抽样分布是指样本统计屋的分布,即把某种样本统计量看作一个随机变量,这个随机变屋的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.统计量:样本均值,样本比例,样本方差等样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据对抽样分布的理解抽样分布:即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布样本均值的抽样分布容量相同的所有町能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。

4个个体分别为xl=l、x2=2、x3=3、x4=4。

总体的均值、方差及分布如下均值和方差样本均值的抽样分布(例题分析)现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。

所有样本的结果为样本均值的抽样分布(例题分析)计算岀各样本的均值,如下表。

并给出样本均值的抽样分布样本均值的分布与总体分布的比较(例题分析)=2.502=1.25总体分布抽样分布-样本平均数的分布某班组5个工人的口工资为34、38、42、46、50元。

=422=32现用重置抽样的方法从5人中随机抽2个构成样本。

共有52=25个样本。

如右图。

验证了以下两个结论:抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为抽样平均误差,用表示。

抽样分布—样本平均数的分布样本均值的抽样分布与中心极限定理当总体服从正态分布N〜(u,o2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X的数学期望为U,方差为02/no即X〜N@,o2/n)中心极限定理(centrallmiittheorem)中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分犬时,样本均值的抽样分布近似服从均值为u、方差为c2/n的正态分布中心极限定理(centrallimittheorem)非正态总体的均值的抽样分布趋于正态分布的过程补充:大数定理大数定理当样本容量n充分大时,可以用样本平均估计总体平均。

当试验次数n充分大时,可以用频率代替概率。

人数定理的意义:个别现象受偶然因素影响,但是,对总体的人量观察后进行平均,就能使偶然因素的影响相互抵消,从而使总体平均数稳定下来,反映出爭物变化的一般规律,这就是大数定理的意义。

极限定理:包扌舌大数定理与中心极限定理两类人数定理:体现偶然性与必然性的辨证关系,偶然性是必然性的表现形式.频率稳定于概率,均值稳定于数学期望.中心极限定理:研究在什么条件下,随机变量的和的分布可以近似正态分布.极限定理是我们作人量社会调查具有科学性之所在,它从理论上表明了抽样调查的科学性,也为抽样调查的定量分析奠定了基础.抽样分布与总体分布的关系样本均值的数学期望样本均值的方差重复抽样不重复抽样PI10说明样本均值的抽样分布的特征pl09(数学期望与方差)样本均值的抽样分布的特征(数学期望与方差)比较及结论:1.样本均值的均值(数学期塑)等于总体均值2.样本均值的方差等于总体方差的1/n样本比例的抽样分布总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为比例(piopoilion)容量相同的所有可能样本的样本比例的概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似一种理论概率分布推断总体总体比例的理论基础样本比例的抽样分布样本比例的数学期塑样本比例的方差重复抽样不重复抽样样本比例的抽样分布的特征(数学期望与方差)6.2参数估计的基本方法估计量与估计值点估计与区间估计评价估计量的标准估计量与估计值估计量:用于估计总体参数的随机变量如样本均值,样本比例、样本方差等例如:样本均值就是总体均值的一个估计量参数用表示,估计量用表示估计值:估计参数时计算出来的统计量的具体值如果样本均值x=80,则80就是总体参数的估计值估计量与估计值pill(estimator&estimatedvalue)点估计与区间估计参数估计的方法估计方法点估计区间估计一个总体参数的估计点估计(pointestimate)用样本的估计屋直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计例如:用两个样本均值之差直接作为总体均值之差的估计2.没有给出估计值接近总体参数程度的信息.实际中一次抽样,不可能指望样本估计屋恰好等于总体参数的值.区间估计(intervalestimate)在点估计的基础上,给出总体参数估计的一个区间范闱,该区间由样本统计量加减抽样误差而得到的根据样本统计屋的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度屋比如,某班级平均分数在75〜85之间,置信水平是95%评价估计量的标准无偏性(unbiasedness)无偏性:估计量抽样分布的数学期望等于被估计的总体参数有效性(efficiency)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效一致性(consistency)一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数6.3总体均值的区间估计区间估计的基本原理正态总体或人样本的估计正态总体小样本的估计区间估计的基本原理区间估计的图示将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平表示为(1-为是总体参数未在区间内的比例常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.10置信水平由样本统计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间置信区间(confidencemteival)置信区河与置信水平均值的抽样分布(1-)%区间包含了%的区间未包含用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希塑这个区间是人量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个参数区间估计参数区间估计的含义:估计总体参数的区间范闱,并给出区间估计成立的概率值。

其中:l-a(O<a<l)称为置信度:a是区间估计的显著性水平,其取值人小由实际问题确定,经常取1%、5%和10%o如何理解:例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,,这样,由1000个样本构造的总体参数的1000个置信区间中,有95%的区间包含了总体参数的真值,而5%的置信区间则没有包含。

这里,95%这个值被称为置信水平(或置信度)。

一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。

我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解?错误的理解:60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。

正确的理解:如果做了多次抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包枯真值。

真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。

但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。

如呆人家还是不能理解,那你们最好这样回答有关区间估计的结呆:该班同学平均成绩的置信区间是60-80分,置信度为95%。

区间估计估计未知参数所在的町能的区间。

评价准则随机区河置信度精确度随机区河包含(即可靠程度)越大越好。

的概率的平均长度(误差范围)越小越好一般形式或总体参数估计值误差范围A:一定倍数的抽样误差例如:抽样误差一定时,越大,概率(可靠性)大;随之增大,精确度就差。

总体均值的区间估计(正态总体、2已知,或非正态总体、大样本)总体均值的区间估计假定条件总体服从正态分布,方差(2)已知如果不是正态分布,可由正态分布来近似(n30)总体均值在1-置信水平下的置信区间为总体均值的区间估计(例题分析)【例】某种零件的长度服从正态分布,从某天生产一批零件中按重复抽样方法随机抽取9个,测得其平均长度为21.4cm。

相关主题