当前位置：文档之家› 第五章抽样推断

第五章抽样推断

2）德莫佛—拉普拉斯中心极限定律：
第三节
抽样平均误差
抽样误差的概念和理解抽样误差：来源于登记性误差和代表性误差登记性误差调查误差或工作误差，指在调查、编辑、编码、汇总过程中由于观察、测量、登记、计算上的差错或被调查者提供虚假资料而引起的误差。这种误差的直接表现就是没有真实客观地搜集或记录被调查单位的标志值或标志特征，从而使所计算的统计量偏离其真实值。登记性误差存在于所有的统计调查中，而且调查的范围越大、调查单位越多，产生误差的可能性越大。登记性误差与测量工具的精度、测量技术、调查人员的责任心、被调查者的合作态度等密切相关。
特点
只抽取部分单位；
用部分推断总体；
抽样遵循随机原则；会产生抽样误差，但误差可以计算和控制。
统计误差
统计数字与实际数量之间的差别。登记误差：调查误差或工作误差，指在登记、汇总计算过程中产生的误差。（可以避免的）代表性误差：用部分去推断总体产生的误差。（一般不可避免）
第二节
随机误差：偶然性误差遵循了随机原则的原则，由偶然因素引起样本结构不能完全代表总体结构而产生的误差。偶然误差不可避免，即使没有登记误差和系统性误差，仍会存在误差。虽然不可避免，但可以估计和控制。偶然误差总和等于0。全面调查不存在偶然误差。
▼随机误差可以分为实际误差和抽样平均误差实际误差：样本指标与总体指标之间的差别，无法计算。抽样平均误差：所有样本平均指标的标准差。可以计算。登记性误差抽样中的总误差代表性误差
例某全及总体由1、2、3、4、5六个数字构成。全及总体：1、2、3、4、5。假设样本容量为3，则从全及总体中采用不考虑顺序不重复的简单随机抽样，可以抽取出10个抽样总体，这样就有10个样本平均数. 1,2,3 1,3,4 1,4,5 2,3,4 2,4,5
x1
1,2,4
x2
1,2,5
x3
3,4,5
▼抽样平均误差计算总结
重复抽样
x
x
p
p

n
变量总体
不重复抽样

n
n 1 N
重复抽样属性总体不重复抽样
P(1 P) n P(1 P) n (1 ) n N
不重复抽样的抽样平均误差小于重复抽样的，当抽样比远小于1时，两者非常接近。
通过样本推断总体指标时，总体标准差往往是未知的，此时如果存在过去资料，则采用过去资料的最大标准差作为总体标准差的估计值；如果没有过去资料，则采用样本标准差作为总体标准差的估计值。不重复抽样情况下，当总体单位总数未知时，则认为抽样比大大小于1，而采用重复抽样的抽样平均误差的计算公式。
不考虑顺序的重复抽样
n n DN CN n 1
抽样调查的理论依据
大数定律：证明了抽样平均数（成数）趋近于总体平均数（成数）的趋势。 1）独立同分布大数定律： 2）贝努力大数定律：中心极限定律：证明了多个随机变量和的分布趋近于正态分布。抽样平均数就是一种随机变量。
1）独立同分布中心极限定律：
属性总体：
n1 p n S p (1 p )
pq
n0 q n p q 1
n1 具有某种属性， n0 不具有某种属性
▼抽样的目的就是通过观察样本的特征来推断总体的特征，即用样本平均数用来推断总体平均数，而样本标准差作为总体标准差估计值（当总体标准差未知）用来计算总体平均数的估计区间（臵信区间）。
n N
▼抽样总体（样本）特征的描述
抽样总体（样本）特征也是通过均值和标准差来描述的。
不是确定的、唯一的，因此抽样指标也不是确定的、唯一的，是样本变量的函数，是随机变量。
变量总体：
x
x
i 1
n
i
n
2 ( x x ) i i 1 n
S
n
S 2称为样本方差
对于分组资料采用加权的计算公式。（见第三章）
▼全及总体特征的描述描述总体的特征一般采用均值和标准差。 ☆全及总体是确定的，唯一的，因此全及指标也是确定的，唯一的。变量总体： X X N

2 ( X X )
N
2为总体方差
N1 属性总体： P 1 Q N σ P(1 P) PQ
N0 Q N PQ 1
偏差：系统性误差
实际误差
随机误差：偶然误差抽样平均误差
▼抽样平均误差的影响因素
主要受到三个因素影响：
全及总体标志变动程度σ2。总体标志值变动越大，抽样平均误差越大，反之则越小。
抽样单位数（样本容量）的多少n。其他条件不变，抽取的单位数越多，抽样平均误差越小，反之越大。抽样组织的方式和抽样组织形式。
KL
P
KL
( x K X )( x L X )
1 ( x K X )( x L X ) N ( N 1) K L N 1
2
其中：
PKL
1 N ( N 1)
PKL 表示第i个被抽中单位取值 x K , 第 j个被抽中单位值为 x L的概率。
K L
i j
由于重复抽样中，一个被抽中的单位的可能性不受其他 E ( x i X（ ) x j X ) E ( xi X ) E ( x j X ) 0 （当i j时）
单位是否被抽中的影响，即各单位是互相独立的，这样：
另外，E ( xi X ) 2 i2 2
2
因此，抽样平均误差为
x

2 N n
n ( ） n N (当抽样比n N 很小）
抽样比大大小于1时，不重复抽样的抽样平均误差与重复抽样的很接近
属性全及总体的抽样平均误差公式推导：
具有某标志（取值1）的单位比重不具有某标志（取值0）的单位比重则属性总体的平均数
x4
1,3,5
x5
2,3,5
x6
x7
x8
x9
x10
抽样方法和样本可能数目
抽样方法
样本数目与样本容量有关，也与抽样方法有关，样本容量既定，则样本数目取决于抽样的方法。
重复抽样
抽样方式不同
不重复抽样样本要求不同不考虑顺序抽样以上结合为四种抽样方法：考虑顺序的重复抽样、考虑顺序的不重复抽样、不考虑顺序的重复抽样和不考虑顺序的不重复抽样。考虑顺序抽样
x 变量总体抽样极限误差 p 属性总体抽样极限误差
总体标准差
基本概念
全及总体：所要认识对象的全体。变量总体：数量标志；一般以N表示全及总体的单位总数， X 表示全及表示全及总体的标准差。总体的平均数，属性总体：品质标志；具有某种属性的单位占总体单位总数的比重，称为总体成数P，标准差也用σ表示。
1 2 n
其中
E (x
i j
X )( x j X )(共n(n - 1)个）
N
E ( xi X ) 2 Pj ( x j X ) 2
j 1
2 2 ( x X ) j j 1 N
1 N
Pj 表示第j个被抽中的单位值为 x j的概率。
i j
E ( x i X )( x j X )
x2
k
E ( x i X ) 2 ( E表示数学期望）
x1 x2 xn nX 2 E[ ] n n
( x1 X ) ( x2 X ) ( xn X ) 2 E[ ] n 1 2 [ E ( x1 X ) 2 E ( x 2 X ) 2 E ( x n X ) 2 n 2 E (x i X )( x j X )]
不同抽样方法的样本可能数目
考虑顺序的不重复抽样
n N
N! A N ( N 1) ( N n 1) ( N n)!
n N
不考虑顺序的不重复抽样
C
N ( N 1) ( N n 1) N! n! n!( N n)!
考虑顺序的重复抽样
n BN Nn
第六章
抽样调查
问题： 1、某研究人员想要了解杭州在校大学生每周的自习时间，然而对于一个拥有几十万大学生的城市来说，他的调查经费是远远不够的，那么这项调查还能进行吗？如果能进行，他该怎么进行，并判断结论的可靠性呢？
2、某企业想调查消费者对它的产品的认知程度，如何进行，并判断结论的可靠性呢？
抽样调查概述基本概念及理论依据抽样平均误差抽样推断——均值的推断抽样方案的设计必要抽样单位数的确定
代表性误差由于样本的分布结构与总体分布不一致所差生的误差。这部分误差来源于抽样过程以及推断总体过程中（一般不可避免）。代表性误差又分为两种：偏差：系统性误差由非随机因素（违背随机原则）造成样本代表性不足而产生的误差。表现为样本统计量数值系统性偏高或偏低。这种误差也属于工作态度、水平、技术等的问题。应尽量避免。
2 x
所以：
1 2 2 2 2 [ 1 2 n ] n
n 2 n n
2 2
公式说明了，抽样平均误差仅为全及总体标准差的
1 。 n
不重复抽样下变量全及总体的抽样平均误差公式推导
x
2
1 2 n
i j
E (x
i 1 i j i
n
i
X)
2
N1 P N N0 Q 1 P N
Xf X f
1 P 0 Q P PQ
P
2 ( X X ) f
f
(1 P) 2 P (0 P) 2 Q PQ
PQ P(1 P)
根据前面推导的重复抽样和不重复抽样的公式，可得到属性总体的抽样平均误差：重复抽样：

e商务文档

第五章抽样推断

相关文档推荐：

e商务文档

第五章 抽样推断

相关文档推荐：

第五章抽样推断