第五章 抽样推断
2)德莫佛—拉普拉斯中心极限定律:
第三节
抽样平均误差
抽样误差的概念和理解 抽样误差:来源于登记性误差和代表性误差 登记性误差 调查误差或工作误差,指在调查、编辑、编码、汇 总过程中由于观察、测量、登记、计算上的差错或被调 查者提供虚假资料而引起的误差。 这种误差的直接表现就是没有真实客观地搜集或记录 被调查单位的标志值或标志特征,从而使所计算的统计量 偏离其真实值。 登记性误差存在于所有的统计调查中,而且调查的范 围越大、调查单位越多,产生误差的可能性越大。 登记性误差与测量工具的精度、测量技术、调查人员 的责任心、被调查者的合作态度等密切相关。
特 点
只抽取部分单位;
用部分推断总体;
抽样遵循随机原则; 会产生抽样误差,但误差可以计算和控制。
统计误差
统计数字与实际数量之间的差别。 登记误差: 调查误差或工作误差,指在登记、汇总计算过程中 产生的误差。(可以避免的) 代表性误差: 用部分去推断总体产生的误差。(一般不可避免)
第二节
随机误差:偶然性误差 遵循了随机原则的原则,由偶然因素引起样本结构不能 完全代表总体结构而产生的误差。偶然误差不可避免,即 使没有登记误差和系统性误差,仍会存在误差。 虽然不 可避免,但可以估计和控制。偶然误差总和等于0。 全面调查不存在偶然误差。
▼随机误差可以分为实际误差和抽样平均误差 实际误差:样本指标与总体指标之间的差别,无法计算。 抽样平均误差:所有样本平均指标的标准差。可以计算。 登记性误差 抽样中的 总误差 代表性误差
例 某全及总体由1、2、3、4、5六个数字构成。 全及总体:1、2、3、4、5。假设样本容量为3,则从 全及总体中采用不考虑顺序不重复的简单随机抽样,可以 抽取出10个抽样总体,这样就有10个样本平均数. 1,2,3 1,3,4 1,4,5 2,3,4 2,4,5
x1
1,2,4
x2
1,2,5
x3
3,4,5
▼抽样平均误差计算总结
重复抽样
x
x
p
p
n
变量总体
不重复抽样
n
n 1 N
重复抽样 属性总体 不重复抽样
P(1 P) n P(1 P) n (1 ) n N
不重复抽样的抽样平均误差小于重复抽样的, 当抽样比远小于1时,两者非常接近。
通过样本推断总体指标时,总体标准差往往是未知的,此 时如果存在过去资料,则采用过去资料的最大标准差作为总体 标准差的估计值;如果没有过去资料,则采用样本标准差作为 总体标准差的估计值。 不重复抽样情况下,当总体单位总数未知时,则认为抽样 比大大小于1,而采用重复抽样的抽样平均误差的计算公式。
不考虑顺序的重复抽样
n n DN CN n 1
抽样调查的理论依据
大数定律:证明了抽样平均数(成数)趋近于总体平均 数(成数)的趋势。 1)独立同分布大数定律: 2)贝努力大数定律: 中心极限定律:证明了多个随机变量和的分布趋近于正 态分布。抽样平均数就是一种随机变量。
1)独立同分布中心极限定律:
属性总体:
n1 p n S p (1 p )
pq
n0 q n p q 1
n1 具有某种属性 , n0 不具有某种属性
▼抽样的目的就是通过观察样本的特征来推断总体的特征, 即用样本平均数用来推断总体平均数,而样本标准差作为总 体标准差估计值(当总体标准差未知)用来计算总体平均数 的估计区间(臵信区间)。
n N
▼抽样总体(样本)特征的描述
抽样总体(样本)特征也是通过均值和标准差来描述的。
不是确定的、唯一的,因此抽样指标也不是确定的、唯 一的,是样本变量的函数,是随机变量。
变量总体:
x
x
i 1
n
i
n
2 ( x x ) i i 1 n
S
n
S 2称为样本方差
对于分组资料采用加权的计算公式。(见第三章)
▼全及总体特征的描述 描述总体的特征一般采用均值和标准差。 ☆全及总体是确定的,唯一的,因此全及指标也是确定的, 唯一的。 变量总体: X X N
2 ( X X )
N
2为总体方差
N1 属性总体: P 1 Q N σ P(1 P) PQ
N0 Q N PQ 1
偏差:系统性误差
实际误差
随机误差:偶然误差 抽样平均误差
▼抽样平均误差的影响因素
主要受到三个因素影响:
全及总体标志变动程度σ2。总体标志值变动越大, 抽样平均误差越大,反之则越小。
抽样单位数(样本容量)的多少n。其他条件不变, 抽取的单位数越多,抽样平均误差越小,反之越大。 抽样组织的方式和抽样组织形式。
KL
P
KL
( x K X )( x L X )
1 ( x K X )( x L X ) N ( N 1) K L N 1
2
其中:
PKL
1 N ( N 1)
PKL 表示第i个被抽中单位取值 x K , 第 j个被 抽中单位值为 x L的概率。
K L
i j
由于重复抽样中,一个 被抽中的单位的可能性 不受其他 E ( x i X( ) x j X ) E ( xi X ) E ( x j X ) 0 (当i j时)
单位是否被抽中的影响 ,即各单位是互相独立 的,这样:
另外,E ( xi X ) 2 i2 2
2
因此,抽样平均误差为
x
2 N n
n ( ) n N (当抽样比n N 很小)
抽样比大大小于1时,不重复抽样的抽样平均误差与 重复抽样的很接近
属性全及总体的抽样平均误差公式推导:
具有某标志(取值1)的单位比重 不具有某标志(取值0)的单位比重 则属性总体的平均数
x4
1,3,5
x5
2,3,5
x6
x7
x8
x9
x10
抽样方法和样本可能数目
抽样方法
样本数目与样本容量有关,也与抽样方法有关,样本 容量既定,则样本数目取决于抽样的方法。
重复抽样
抽样方式不同
不重复抽样 样本要求不同 不考虑顺序抽样 以上结合为四种抽样方法:考虑顺序的重复抽样、考 虑顺序的不重复抽样、不考虑顺序的重复抽样和不考虑顺 序的不重复抽样。 考虑顺序抽样
x 变量总体抽样极限误差 p 属性总体抽样极限误差
总体标准差
基本概念
全及总体:所要认识对象的全体。 变量总体:数量标志; 一般以N表示全及总体的单位总数, X 表示全及 表示全及总体的标准差。 总体的平均数, 属性总体:品质标志; 具有某种属性的单位占总体单位总数的比重,称为 总体成数P,标准差也用σ表示。
1 2 n
其中
E (x
i j
X )( x j X )(共n(n - 1)个)
N
E ( xi X ) 2 Pj ( x j X ) 2
j 1
2 2 ( x X ) j j 1 N
1 N
Pj 表示第j个被抽中的单位值为 x j的概率。
i j
E ( x i X )( x j X )
x2
k
E ( x i X ) 2 ( E表示数学期望)
x1 x2 xn nX 2 E[ ] n n
( x1 X ) ( x2 X ) ( xn X ) 2 E[ ] n 1 2 [ E ( x1 X ) 2 E ( x 2 X ) 2 E ( x n X ) 2 n 2 E (x i X )( x j X )]
不同抽样方法的样本可能数目
考虑顺序的不重复抽样
n N
N! A N ( N 1) ( N n 1) ( N n)!
n N
不考虑顺序的不重复抽样
C
N ( N 1) ( N n 1) N! n! n!( N n)!
考虑顺序的重复抽样
n BN Nn
第六章
抽样调查
问题: 1、某研究人员想要了解杭州在校大学生每周的自习时间, 然而对于一个拥有几十万大学生的城市来说,他的调查经 费是远远不够的,那么这项调查还能进行吗?如果能进行, 他该怎么进行,并判断结论的可靠性呢?
2、某企业想调查消费者对它的产品的认知程度,如何进 行,并判断结论的可靠性呢?
抽样调查概述 基本概念及理论依据 抽样平均误差 抽样推断——均值的推断 抽样方案的设计 必要抽样单位数的确定
代表性误差 由于样本的分布结构与总体分布不一致所差生的误差。 这部分误差来源于抽样过程以及推断总体过程中(一般不 可避免)。 代表性误差又分为两种: 偏差:系统性误差 由非随机因素(违背随机原则)造成样本代表性不足而产 生的误差。表现为样本统计量数值系统性偏高或偏低。这种 误差也属于工作态度、水平、技术等的问题。应尽量避免。
2 x
所以:
1 2 2 2 2 [ 1 2 n ] n
n 2 n n
2 2
公式说明了,抽样平均误差仅为全及总体标准差的
1 。 n
不重复抽样下变量全及总体的抽样平均误差公式推导
x
2
1 2 n
i j
E (x
i 1 i j i
n
i
X)
2
N1 P N N0 Q 1 P N
Xf X f
1 P 0 Q P PQ
P
2 ( X X ) f
f
(1 P) 2 P (0 P) 2 Q PQ
PQ P(1 P)
根据前面推导的重复抽样和不重复抽样的公式,可得到 属性总体的抽样平均误差: 重复抽样: