当前位置:文档之家› 统计学教案(第6章抽样推断)

统计学教案(第6章抽样推断)

已知,
则 =
必要样本容量的影响因素
1.总体方差的大小;
2.允许误差范围的大小;
3.概率保证程度;
4.抽样方法;
5.抽样的组织方式。
第三节抽样的组织形式
抽样的组织形式有纯随机抽样、机械抽样、类型抽样、整群抽样和多阶段抽样。
一、纯随机抽样
1.含义:对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本
B 最佳分配法 根据各层单位的变异程度的大小来分配
C经济分配法 除了考虑单位数目和变异程度外,还有调查费用。
3.特点:能保证分布的均匀性,提高样本的代表性,误差较小;能同时推断总体指标和各子总体的指标
三、机械抽样
1.含义:是先将全及总体所有单位按某一标志顺序编号排列,然后按照固定顺序和相等的空间距离或间隔,从中抽取样本单位的一种抽样组织方式。又叫等距抽样或系统抽样。
分布是类似正态分布的一种对称分布,他通常要比正态分布平坦和分散。随着自由度的增大, 分布逐渐趋于正态分布。
正态总体、方差未知、小样本情况下,总体均值在 置信水平下的置信区间为:
(重复抽样条件下)(6.18)
(不重复抽样条件下)(6.19)
其中 为t分布临界值,可以查t分布临界值表得到
(三)成数的区间估计
区间估计步骤:
1.计算样本统计量
2.计算抽样平均误差
3.计算极限误差
4.确定置信区间
5.估计总量指标
注意抽样方法的不同
[例]保险公司从投保人中随机抽取36人,计算得36人的平均年龄 岁,已知投保人平均年龄近似服从正态分布,标准差为7.2岁,试求全体投保人平均年龄的置信水平为99%的置信区间。
解: 查 表得
(二)估计总体均值时样本容量的确定
重复抽样条件下:
在简单随机不重复抽样条件下,
σ或S通常未知。一般按以下方法确定其估计值:
①过去的经验数据;②试验调查样本的S。
[例]在某企业中采用简单随机抽样调查职工月平均奖金额,设职工月奖金额服从标准差为10元的正态分布,要求估计的绝对误差为3元,可靠度为95%,试问应抽多少职工?
(二)估计的评价标准:
(1)无偏性:
设 是未知参数 的一个点估计量,若 满足 即估计量的数学期望等于被估计参数则称 是 的无偏估计量,否则称为有偏估计量。
需要注意的是,由于估计量 是样本 的函数,样本量是 维随机变量,所以对 求平均是按样本 的概率分布求平均。
无偏性是我们衡量点估计量好坏的一个评价标准,这个评价标准的直观意义如下:由于样本的出现带有随机性,所以基于一次具体抽样所得的参数估计值未必等于参数真值,这是由样本的随机性造成的。我们希望当大量使用这个估计量对参数进行估计时,一系列估计值的平均值应该与待估参数真值相等。这就从平均效果上对估计量的优劣给出一个评价标准。
解:已知 则
即需抽取43名职工作为样本进行调查。
(三)估计成数时样本大小的确定
在简单随机重复抽样条件下,得到样本容量:
(重复抽样条件下)
在简单随机不重复抽样条件下,我们可以得出估计总体比例时样本容量的计算公式为:
(不重复抽样条件下)
[例]根据以往的生产统计,某种产品的合格率为90%,现要求绝对误差为5%,在置信水平为95%的置信区间时,应抽取多少个产品作为样本?
2.方法:根据需要计算抽取各个样本单位之间的距离或间隔;然后,按此间隔依次抽取必要的样本单位。
3.特点:能保证样本较均匀地分布。是不重复的抽样。
4.形式:按无关标志排队,其抽样效果相当于简单随机抽样;按有关标志排队,其抽样效果相当于类型抽样。
四、整群抽样
1.含义:将全及总体单位划分为若干群或组,然后按纯随机抽样或等局抽样方式,从中成群或成组的抽取样本单位,对抽中的群或组的所有单位进行全面调查的一种方式
2.特点:简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差
五.多阶段抽样
指分两个或两个以上的阶段来完成抽取样本单位的过程
例:在某省100多万农户抽取1000户调查农户生产性投资情况。
第一阶段:从该省所有县中抽取5个县
第二阶段:从被抽中的5个县中各抽4个乡
第三阶段:从被抽中的20个乡中各抽5个村
第二节抽样推断的方法
一、点估计
(一)点估计的概念及特点
参数估计:以样本统计量对总体参数进行估计,有点估计和区间估计两种。
点估计:直接以样本统计量作为相应的总体参数的估计量。
优点:直接给出了总体参数的具体数值
缺点:未能反映误差的大小
参数点估计有:
(1)样本均值估计总体均值
(2)样本成数估计总体成数
(3)样本方差估计总体方差
(3)因为未知参数 是非随机变量,所以不能说 落入区间 [ , ]的概率是 ,而应是随机区间 [ , ]包含 的概率是 。
通俗地说,在点估计的基础上,给出总体参数的一个范围称为区间估计。
(二)总体均值的区间估计
1.正态总体且方差已知;或非正态总体、方差未知、大样本情况下
在这种情况下,样本均值的抽样分布呈正态分布,其数学期望为总体均值 ,方差为 。则 称为总体均值在 置信水平下的置信区间。
在大样本(一般经验规则: )条件下,样本比例的抽样分布可用正态分布近似。在这种情况下,数理统计已经证明如下结论:
置信水平为 的置信区间为:
(重复抽样)
(不重复抽样)
[例]某城市想要估计下岗职工中女性所占的比例,采取重复抽样方法随机抽取了100名下岗职工,其中65人为女性。试以95%的置信水平估计该城市下岗职工中女性所占比例的置信区间。
2.总体参数ห้องสมุดไป่ตู้样本统计量
(1)总体参数:总体分布的数量特征就是总体参数,也是抽样统计推断的对象。常见的总
体参数有:总体的平均数指标,总体成数(比重)指标,总体分布的方差、标准差等等。
(2)样本统计量:与总体参数对应的是样本统计量。
设( )是总体 容量为n的样本,若样本函数
( )
中不含任何未知参数,则称 为一个统计量。
2.特点:最符合抽样调查的随机原则,是基本形式。简便易行。
3.范围:仅适用于单位数不多、标志变异较小、分布较均匀的总体
二、类型抽样
1.含义:先将全及总体中的所有单位按某一主要标志分组,然后在各组中采用纯随机抽样或机械抽样方式,抽取一定数目的调查单位构成所需的样本。又叫分层抽样或分类抽样。
2.方法:
A比例分配法ni/n=Ni/N
教学重点及难点提示:
重点:区间估计
难点:抽样平均误差的计算
案例导入:大学生消费调查:一个月你花多少?
第一节抽样推断概述
一、抽样推断的概念及特点
(一)概念
按随机原则从总体中抽取部分单位,根据这部分单位的信息对总体的数量特征进行科学估计与推断的方法。
包括抽样调查和统计推断
抽样调查:一种非全面调查,按随机原则从总体中抽取部分单位进行调查以获得相
解:已知 , ,
根据公式得:
即75%±5.37%=(69.63%,80.37%),95%的置信水平下估计赞成改革的人数比例的置信区间为69.63%~80.37%。
三、样本容量的确定
(一)影响样本容量的意义
在抽取样本时样本容量应多大是一个很实际的问题。样本容量取得比较大,收集的信息就比较多,从而估计精度比较高,但进行观测所投入的费用、人力及时间就比较多;样本容量取得比较小,则投入的费用、人力及时间就比较少,但收集的信息也比较少,从而估计精度比较低。这说明精度和费用对样本量的影响是矛盾的,不存在既使精度最高又使费用最省的样本量。一个常用的准则是在使精度得到保证的前提下寻求使费用最省的样本量。由于费用通常是样本量的正向线性函数,故使费用最省的样本量也就是使精度得到保证的最小样本量。
若对于任意ε>0,有
二、区间估计法
在参数估计中,虽然点估计可以给出未知参数的一个估计,但不能给出估计的精度。为此人们希望利用样本给出一个范围,要求它以足够大的概率包含待估参数真值。这就是导致区间估计问题。
所谓区间估计,就是估计总体参数的区间范围,并要求给出区间估计成立的概率值。
设 是未知参数, 是来自总体的样本,构造两个统计量 , ,对于给定的 (0< <1),若 、 满足
解:已知 , ,
根据公式得:
即65%±9.35%=(55.65%,74.35%),95%的置信水平下估计该城市下岗职工中女性所占比例的置信区间为55.65%~74.35%。
[例]某企业共有职工1000人,企业准备实行一项改革,在职工中征求意见,采用不重复抽样方法,随机抽取200人作为样本,调查结果显示,由150人表示赞成这项改革,有50人表示反对。试以95%的置信水平确定赞成改革的人数比例的置信区间。
(2)有效性:
设 , 均为未知参数 的无偏估计量,如果对参数 的一切可能取值有 ,则称无偏估计量 比 有效
一个无偏估计量并不意味着他就非常接近被估计的参数,他还必须与总体参数的离散程度比较小。对同一总体参数的两个无偏点估计量,方差小者更有效。
(3)一致性:
指随着样本单位数n的增大,样本估计量将在概率意义下越来越接近于总体真实值
第四阶段:从被抽中的100个村中各抽10户
样本n=100×10=1000(户)
教法提示:
多媒体教学
案例教学
列举法
(1)样本容量:样本是从总体中抽出的部分单位的集合,这个集合的大小称为样本容量,一般用n表示,它表明一个样本中所包含的单位数。一般地,样本单位数大于30个的样本称为大样本,不超过30个的样本称为小样本。
(2)样本个数:又称样本可能数目,它是指从一个总体中可能抽取多少个样本。样本个数的多少与抽样方法有关。
2.根据部分推断总体的数量特征
3.抽样推断的结果具有一定的可靠性和准确性,抽样误差可以事先计算和控制
其他特点有经济性、时效性、准确性、灵活性等
相关主题