当前位置:文档之家› 统计学第六章抽样调查

统计学第六章抽样调查


n
N
例题2
xf
x
f
8400 200
42
s (x x)2 f 12200 7.81
f
200
2 (1 n ) 7.812 (1 200 ) 0.55
x
n
N
200
2000
例题3
❖某冷库的10万只冻鸡合格率为97%, 如果按重复抽样与不重复抽样各抽 取1000只和2000只,分别计算抽样 平均误差。
A
B
较小的样本容量
X
成数
❖ 总体成数
每个总体单位标志值设为0或1 1:具有某种属性的总体单位标志值 0:不具有某种属性的总体单位标志值 总体中具有某种特征的单位占全部总体单位
数的比例称为总体成数,记作P 成数总体方差:P(1-P)
总体成数和样本成数
❖ 样本成数
从成数总体中抽取样本容量为n的样本 样本中具有此种特征的单位占全部样本单位
从1、2 、3、4中随机抽取2个的样本数
重复抽样考虑顺序
16
1、1 2、1 3、1 4、1
1、2 2、2 3、2 4、2
1、3 2、3 3、3 4、3
1、4 2、4 3、4 4、4
从1、2 、3、4中随机抽取2个的样本数
不重复抽样考虑顺序 12
2、1 3、1 4、1
1、2
3、2 4、2
1、3 2、3
- 2.58x
-1.65 x
+1.65x + 2.58x
x
-1.96 x
+1.96x
90%的样本
95% 的样本
99% 的样本
区间估计
❖ 根据一个样本的观察值给出总体参数的估计范围 ❖ 给出总体参数落在这一区间的概率 ❖ 例如: 总体均值落在50~70之间,置信度为 95%
置信区间
样本统计量 (点估计)
解:已知 x=26, =6,n=100, 1- =
0.95,Z/2=1.96
x Z 2
n , x Z 2
n
26 1.96
6 ,26 1.96 100
6 100
24.824,27.176
结论:我们可以95%的概率保证平均每天参加锻炼 的时间在24.824~27.176 分钟之间
成数的区间估计 p tu p
总体参数和样本统计量符号
总体参数
总体容量: N 总体平均数:
总体成数: P 总体方差: 2 总体标准差:
样本统计量
样本容量: n 样本平均数: x
样本成数: p 样本方差: S 2 样本标准差: S
抽样调查的基本概念
❖ 概率抽样与非概率抽样
概率抽样:又称随机抽样,是按随机原则抽取样 本单位。本章所指的均为概率抽样。
置信下限
置信上限
区间估计
设总体参数为 ,由样本确定的两个统计量,
对于给定的,有
P(1 2 ) 1
则称 (1,2 )为参数的置信度为 1 的置信 区间,该区间的两个端点 1,2 分别称为置信
下限和置信上限,统称为置信限。 为显著
性水平,1 则称为置信度。
置信水平
❖ 总体未知参数落在区间内的概率,表示 为 (1 -
简单随机抽样调查
❖ 简单随机抽样
从总体单位中不加任何分组、排队,完全随 机地抽取调查单位。
❖ 评价:
简单易行,最符合随机原则,是抽样调查的 基本形式
❖ 适用情况:
当总体单位数不多且分布比较均匀,或总体 单位之间数量特征值差异较小,或总体单位 有现成的编号时,采用这种方式比较适宜。
简单随机抽样调查
抽样调查
❖ 抽样调查的特点
遵守随机原则: 无人为因素、公正、公平
用抽样指标推断总体的指标: 方便、快捷、节约费用
抽样误差可以事先计算并加以控制 准确、能够满足调查目的的要求
抽样调查的适用范围
实际工作不可能进行全面调查观察,而又需要了 解其全面资料的事物;
虽可进行全面调查观察,但比较困难或并不必要;
❖ 区间估计
点估计
❖ 从总体中抽取一个样本,根据该样本的 统计量对总体的未知参数作出一个数值 点的估计
▪ 例如: 用样本均值作为总体未知均值的估计 值就是一个点估计
❖ 点估计没有给出估计值接近总体未知参数 程度的信息
点估计
❖ 常用的点估计量有:

落在总体均值某一区间内的样本
x = Zx
x_
抽样极限误差
❖ 样本平均数的抽样极限误差:以绝对值形式 表示的样本平均数的抽样误差的可能范围, 用符号表示为:
x x
即:
x
x
x
抽样极限/允许误差
❖ 样本成数的抽样极限误差:以绝对值形式表 示的样本比例的抽样误差的可能范围,用符 号表示为:
p P p
即:
Pp p Pp
❖ 点估计
抽样估计
对普查或全面调查统计资料的质量进行检查和修 正;
抽样方法适用于对大量现象的观察,即组成事物 总体的单位数量较多的情况
利用抽样推断的方法,可以对于某种总体的假设 进行检验,判断这种假设的真伪,以决定取舍。
抽样的基本概念
❖ 抽样涉及的基本概念有:
总体与样本(见第一章) 总体参数与样本统计量 重复抽样与不重复抽样
,试建立该种零件平均长度的置信区间, 给定置信水平为0.95。
❖ 解:已知x ~N(,0.152),x=2.14, n=9, 1 = 0.95,Z/2=1.96,总体均值的置信区
间为
x Z 2
n
,
x
Z
2
n
21.4
1.96
0.15 9
,21.4
1.96
0.15 9
21.302,21.498
❖ 通常有以下四种组织形式:
直接抽选法
总体单位不编号,不编制抽样框
抽签法
对总体所有单位进行编号,且签需外形一致
随机数表法
总体所有单位编号,使用随机数表抽样
计算机模拟法
将随机数字编程
简单随机抽样
❖ 总体和样本的平均数
❖ 总体和样本的方差和标准差
有偏(n>30) 无偏(n≤30)
❖ 数理统计表明:
结论:我们可以95%的概率保证该种零件的平均长度在 21.302~21.498 mm之间
总体均值的区间估计
(非正态总体:实例)
【例】某大学从该校学生中随机抽取100 人,调查到他们平均每天参加体育锻炼 的时间为26分钟。试以95%的置信水平 估计该大学全体学生平均每天参加体育 锻炼的时间(已知总体方差为36小时) 。
有偏
A
C
X
估计量的优良性准则——有效性
有效性:一个方差较小的无偏估计量称为一个更
有效的估计量。如,与其他估计量相比,样本均值 是一个更有效的估计量
P(X )
均值的抽样分布
B
中位数的抽样分布
A
X
估计量的优良性准则——一致性
❖ 一致性:随着样本容量的增大,估计量越来越接
近被估计的总体参数
P(X )
较大的样本容量
x
1 n
n i 1
xi
n1 n
p
成数是一种特殊的平均数
总体中具有某个属性的单位占全体单位的比重
样本成数p是总体成数P的无偏、一致、有效估计量
样本成数的无偏方差是成数总体方差的无偏估计量
例题1
❖某市有140 000户,从中随机抽取40 户,每户家庭人口数如P243表9-2, 试用这一样本资料估计全市每户平 均人口数,3人家庭在全市户数中所 占的比例和标准差
❖ 这些概念是统计学特有的,体现了统计学的 基本思想与方法。
抽样调查的基本概念
❖ 总体:由被调查对象的全部单位所构成的集
合体 总体单位数用N表示。
❖ 抽样总体:抽取出来调查观察的单位。
抽样总体的单位数用n表示。 n ≥ 30 大样本 n < 30 小样本
抽样估计的概念和特征
❖抽样估计:在抽样调查的基础上,利用 样本的数据资料计算样本指标,以样本 特征值对总体特征值做出具有一定可靠 程度的估计和判断。
数的比例称为样本成数,记作p p=n1/n
样本成数
❖ 样本成数的方差
样本成数的无偏方差(n<=30)
s
2 p
n n 1
p(1
p)
样本成数的有偏方差(n>30)
s02p p(1 p)
❖ 样本成数的标准差
样本成数
❖ 样本成数的性质
❖ x1,x2……xn的各标志值中有n1个值为1,有n0个
值为0,所以:
4、3
1、4 2、4 3、4
从1、2 、3、4中随机抽取2个的样本数
重复抽样不考虑顺序 10
1、1
1、2 2、2
1、3 2、3 3、3
1、4 2、4 3、4 4、4
从1、2 、3、4中随机抽取2个的样本数
不重复抽样不考虑顺序
1、2
1、3 2、3
6
1、4 2、4 3、4
抽样调查的组织形式
❖ 简单随机抽样 ❖ 类型随机抽样 ❖ 等距抽样 ❖ 整群抽样
pˆ -tu p ≤P ≤ pˆ + tu p
成数的置信区间
❖ 假定条件 两类结果 总体服从二项分布 可以由正态分布来近似
为显著性水平,是总体参数未在区间内 的概率
❖ 常用的置信水平值有 99%, 95%, 90%, 相应的 为0.01,0.05,0.10
区间与置信水平
均值的抽样分布
x
/2
1-
/2
X
x
(1 - ) % 区间包含了 % 的区间未包含
总体均值的置信区间 (2 已知)
相关主题