统计学抽样调查PPT
32.4 12.8 2.0 28.8 76.0
三、抽样估计
(一)抽样估计就是以所计算的样本指标来估计相应的 总体指标。 总体指标。 (二)方法论基础 大数定律:说明由大量相互独立的随机变量构成的 大数定律: 总体,其每个变量虽有各种不同的表现, 总体,其每个变量虽有各种不同的表现,但对这些大量 的变量加以综合平均, 的变量加以综合平均,就可以消除偶然因素引起的差 异,从而使总体的某一标志的规律性及其共同特征能在 一定的数量和质量上表现出来。 一定的数量和质量上表现出来。
称为总体平均数。 (3)X=∑X/N称为总体平均数。 ) = / 称为总体平均数 (4)P=M/N为总体成数 ) = / 为总体成数 (5)σ2=∑(X-X)2/N 总体方差 总体方差 ) - σ=√∑(X-X)2/N 总体标准差 总体标准差。 = -
2.样本指标
(1)样本容量为 )样本容量为n 称为样本标志总量; (2) ∑x 称为样本标志总量; ) (3)x=∑x/n 称为样本平均数 ) = / (4)p=m/n 称为具有该特征单位的样本成数。 ) = / 称为具有该特征单位的样本成数。 (5)样本方差 S2 = ∑(x-x)2/n –1 ) - (6)样本标准差 =√∑(x-x)2/n -1 )样本标准差S= - 全及指标具有唯一性, 全及指标具有唯一性,而样本指标不是唯一的
样本平均数
40 45 55 60 45 50 60 65 55 60 70 75 60 65 75 80
x-X -20 -15 -5 0 -15 -10 0 5 -5 0 10 15 0 5 15 20
(x-X)
400 225 25 0 225 100 0 25 25 0 100 225 0 25 225 400 2000
x 148.5 149.5 150.5 151.5 合计
f 10 20 50 20 100
_ x-x 1485 -1.8 2990 -0.8 7525 0.2 3030 1.2 15030 —— xf
_ 2 (X – X) )
_ 2 (X – X)f )
3.24 0.64 0.04 1.44 ——
抽样估计有点估计 点估计和 (三)抽样估计有点估计和 区间估两种形式 区间估两种形式
1、点估计:是用样本估 、点估计:
计量的一个具体观测 值直接作为总体的未 知参数的估计值的方 法。适用于对推断的 准确程度与可靠性要 求不高的情况。 求不000件,其 中有一些是次品,但不知次品有多少。公司 得知每件次品修复成本为5元,并认为如果 总的修复成本低于1500元,就购买这批商品。 公司随机抽取100件商品进行调查,发现8件 次品。问这批商品的次品率是多少?公司是 否可购买这批商品?
练习 1、某城市进行抽样调查,随机抽取 、某城市进行抽样调查,随机抽取400户,结 户 果得平均每户每月消费支出为1350元,标准 果得平均每户每月消费支出为 元 差为380元,要求以95.45%的概率保证程度 差为 元 要求以 的概率保证程度 估计, 估计,该城市平均每户每月消费支出额的范 。(t=2) 围。( ) 2、为研究某新式服装的销路,在市场上随机 、为研究某新式服装的销路, 名成人进行调查, 对900名成人进行调查,结果有 名成人进行调查 结果有540人喜欢该 人喜欢该 服装,要求以95.45%的概率保证程度估计, 的概率保证程度估计, 服装,要求以 的概率保证程度估计 该市城人喜欢该时装的比率。 该市城人喜欢该时装的比率。
二、抽样平均误差µx
(一)概念:抽样平均数的标准差 概念: µx= =
∑ ( x − x) n 2
(x− X )2 ∑
n
样本
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 合计 40 40 40 40 50 50 50 50 70 70 70 70 80 80 80 80 40 50 70 80 40 50 70 80 40 50 70 80 40 50 70 80
的指标数值 会产生抽样误差,并且可事先计算, (三)会产生抽样误差,并且可事先计算, 并能进行控制
三、抽样调查的作用
(一)用于一些不可能或不必要进行全面调查 一 的社会经济现象,以达到对总体数量特征的 的社会经济现象, 认识, 认识,可以取得事半功倍的效果 (二)对全面调查的资料进行补充和修正 (三)广泛运用于工业生产过程中的质量检验 与控制
1.总体各单位标志值的变异程度。在其他条件不变 总体各单位标志值的变异程度。 总体各单位标志值的变异程度 的情况下,总体各单位标志值的变异程度愈大, 的情况下,总体各单位标志值的变异程度愈大, 抽样误差也愈大,反之则愈小。 抽样误差也愈大,反之则愈小。 2.样本单位数的多少 在其他条件不变的情况下, 2.样本单位数的多少。在其他条件不变的情况下, 样本单位数的多少。 样本单位数愈多,抽样误差就愈小, 样本单位数愈多,抽样误差就愈小,反之则愈 大。 3.抽样方法。抽样方法不同,抽样误差也不同。一 抽样方法。 抽样方法 抽样方法不同,抽样误差也不同。 般说来, 般说来,重复抽样的误差比不重复抽样的误差 要大。 要大。 4.抽样的组织形式。选择不同的抽样组织形式,也 抽样的组织形式。 抽样的组织形式 选择不同的抽样组织形式, 会有不同的抽样误差, 会有不同的抽样误差
)、抽样极限误差 (1)、抽样极限误差 )、
抽样极限误差是指样本和总体指标之间误 差的允许范围。 差的允许范围。 由于总体指标是一个确定的数,而样本指 由于总体指标是一个确定的数, 标则是围绕总体指标上下波动的, 标则是围绕总体指标上下波动的,它与总体 指标之间既有正离差,也有负离差, 指标之间既有正离差,也有负离差,样本指 标变动的上限或下限与总体指标之差的绝对 值就可以表示抽样误差的可能范围, 值就可以表示抽样误差的可能范围,我们将 这种以绝对值形式表示的抽样误差允许范围 称为抽样极限误差。 称为抽样极限误差。
t=
∆x
µx
t =
∆p
µp
3、置信度(概率保证程度)F(t) 、置信度(概率保证程度)
t与F(t)之间是一一对应的关系。 与 之间是一一对应的关系。 之间是一一对应的关系 t F(t) 1 68.27% 2 95.45% 3 99.73%
第三节
抽样单位数目的确定
一、影响因素 1.被研究总体的标志变动度 1.被研究总体的标志变动度 2.允许的误差范围 2.允许的误差范围 3.抽样推断的可信程度 3.抽样推断的可信程度 4.不同的抽样方式和方法 4.不同的抽样方式和方法 二、计算 t 2σ 2 1.重复抽样 重复抽样: 1.重复抽样: n = 2 ∆x 2.不重复抽样 2.不重复抽样
σ
n
=
σ2 n
=
p (1 − p ) n
2.在不重复抽样下:
µp=
σ2
N −n ( ) = n N −1
p (1 − p ) n
N −n ( ) N −1
例1、某进出口公司出口一批名茶,从2000包 中随 机抽取100包检验,结果如下。根据规定,每包茶叶 在150克以下为不合格产品。根据以上资料,按重复 和不重复抽样,计算该批茶叶的抽样平均误差和抽样 平均合格率误差。 每包重量(克) 148~149 149~150 150~151 151~152 合 计 包数 10 20 50 20 100
P=x/n=8/100=8% 3000×8%=240(件) × ( 240×5=1200(元) × (
2、区间估计 、
对于总体的未知指标X, 对于总体的未知指标 , 根据样本确定 总体指标所在的区间, 总体指标所在的区间,并指出估计推断的可 靠程度。 靠程度。 x1、x2(x1 <x2),使随机区间 (x1,x2) , 包含X的概率等于给定值 的概率等于给定值1- < < , 包含 的概率等于给定值 -α(0<α<1), 即 P(x1≤X≤x2)=1-α = - 则称1- 为置信概率 为置信概率, 为显著水平 为显著水平, 则称 -α为置信概率,α为显著水平,(x1,x2) 称为X的置信区间, 称为 的置信区间,x1、x2分别称为置信下限 的置信区间 和置信上限。 和置信上限。
4、某进出口公司出口一批名茶,从2000包 中随 、某进出口公司出口一批名茶, 包 机抽取100包检验,结果如下。根据规定,每包 包检验, 机抽取 包检验 结果如下。根据规定, 茶叶在150克以下为不合格品。 克以下为不合格品。 茶叶在 克以下为不合格品 (1)按重复抽样和不重复抽样,计算该批茶叶重 按重复抽样和不重复抽样, 按重复抽样和不重复抽样 量的抽样平均误差和合格率的抽样平均误差。 量的抽样平均误差和合格率的抽样平均误差。 (2)试以 试以99.73%的概率保证程度估计这批茶叶平 试以 的概率保证程度估计这批茶叶平 均每包的重量, 均每包的重量,以确定是否达到重量规格的要 求。 (3)以同样的概率保证程度估计这批茶叶的合格 以同样的概率保证程度估计这批茶叶的合格 率范围。 率范围。
四、抽样调查的几个基本概念
(一)全及总体和样本总体。(用N,n表示) 一 全及总体和样本总体。 N,n表示) 全及总体和样本总体 表示 大样本,小样本;抽样比例: 大样本,小样本;抽样比例:n/N (二)总体指标和样本指标。 二 总体指标和样本指标 总体指标和样本指标。 1.总体指标。总体指标也称总体特征数。它 总体指标。 总体指标 总体指标也称总体特征数。 是说明总体数量特征或规律性的数字。 是说明总体数量特征或规律性的数字。 (1)设总体单位数为 )设总体单位数为N (2)∑X为标志总量 ) 为标志总量
第二节、抽样误差和抽样估计
一、抽样误差 概念: (一)概念:是指抽样估计值与被估计的 未知的真实参数( 总体特征值)之差 之差。 未知的真实参数 总体特征值 之差。 (二)误差的来源 1、登记性误差 、 2、系统性误差 、 3、偶然性误差 、
(三)、抽样误差大小的影响因素 )、抽样误差大小的影响因素